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机器 学习： 实用案例解析 


机器学习是计算机科学和人工智能中非常重要的一个研究领域，近年 
来，机器学习不但在计算机科学的众多领域中大显身手，而&成为一 
些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的 
方法和技术，不仅详细阐述了 I 午多经典的学习方法，而且讨论了一些 
有生命力的新理论、新方法。 

全书案例既有分类问题，也有回归 问题； 既包含监抒学习，也涵盖无 
监督学>】。本书 R 论的案例涉及分类、回归、聚类、降维、最优化 
问题等。这些案例 包括： 垃圾邮件识别、智能收件箱、颅测网页访问 
量、文本回归、密码破译、构建股票布场指数、用投票记录对美 W 参 
议员聚类、给用户推荐 R 语言包、分析社交图谱、给问题找到最佳算 
法等。各章对原理的叙述力求槪念清晰、表达准确，突出理论联系实 
际，宫有启发性，易于理解。在探索这些案例的过程中用到的基本工 
具就是 R 编程语言。 

本书主要内容： 

■ 开发一个朴素贝叶斯分类器，仅仅根据邮件的文本信息来判断邮件 
是否是垃圾邮件， 

■ 使用线性回归来预测互联网排名前1000网站的 PV, 

■ 利用文本回归理解图书中词与词之间的关系， 

■ 通过尝试破译一个简单的密码来学习优化技术， 

■ 利用无监督学习构建股票市场指数，用于衡量整体市场行情， 

■ 根据美国参议院的投票情况，从统计学的角度对美国参议员聚类， 

■ 通过 k 近邻算法向用户推荐 R 语言包， 

■ 利用 Twitter 数据构建一个“你可能感兴趣的人”的推荐系统， 

■ 模型 比较： 给问题找到最佳算法。 


‘这本书为机器学习技术提供了一 
些非常棒的案例研究。它并不是 
一本关于机器学习的工具书或者 
理论书籍，而是对学习过程的指 
南，因而适合任何具有编程背景 
和定量思维的人。” 


Max Shron 
OkCupid 


Drew Conway 机器学习专家， 
拥有丰富的数据分析、处理工作 
经验。目前主要利用数学、统计 
学和计算机技术研究国际关系、 
冲突和恐怖主义等。他拥有纽约 
大学博士学位，曾为多种杂志撰 
写文章，是机器学习领域的著名 
学者。 


John Myles White 机器学习专 
家，拥有丰富的数据分析、处理 
工作经验。冃前主要从理论和实 
验的角度来研究人类如何做出决 
定，间时还足 : ProjectTei 
log 4 r 等流行 R 语言程序 
维护者。他拥有普林斯顿大事 
土学位，发表过许多关干机器 
习的论文，并在众多 W 际会议 
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O’Reilly Media 通过图书、杂志、在线服务、调査研究和会议等方式传播创新知识。自1978年 
开始， O ’ Reilly —直都是前沿发展的见证者和推动者。超级极客们正在开创着未来，而我们关 
注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为 
技术社区中活跃的参与者， O ’ Reilly 的发展充满了对创新的倡导、创造和发扬光大。 


O ’ ReiHy 为软件开发人员带来革命性的“动物书”：创建第一个商业网站 （ GNN ) ,组织广 
影响深远的开放源代码峰会，以至于开源软件运动以此命名，创立了 Make 杂志，从而成为 
DIY 革命的主要先锋，公司一如既往地通过多种形式缔结信息与人的纽带。 O ’ Reilly 的会议和 
峰会集聚 f 众多超级极客和高 瞻远瞩 的商业领袖，共同描绘出开创新产业的革命性思想。作 
为技术人士获取信息的选择， O ’ Reilly 现在还将先锋专家的知识传递给普通的计算机用户。无 
论是通过书锫出版，在线服务或者面授课程，每-项 O ’ Reilly 的产品都反映了公司不可动摇的 
理念——信息是激发创新的力董。 

业界评论 

“ O’Reilly Radar 博客有 口皆碑。” 

- Wired 

“ O’Reilly 凭借一系列（真希望当初我也想到了）非凡想法建立了数百万美元的业务。” 
- Business 2.0 

“ O’Reilly Conference 是聚集关键思想领袖的绝对典范。” 

- CRN 

“一本 O’Reilly 的书就代表一个有用、有前途、需要学习的主题。” 

- Irish Times 

“Tim 是位特立独行的商人，他不光放眼于最长远、最广阔的视野并且切实地按照 
Yogi Berra 的建议去 做了： ‘如果你在路上遇到岔路口，走小路 (岔路 ）。’回顾 
过去 Tim 似乎每一次都选择了小路，而且有几次都是一闪即逝的机会，尽管大路也 
不错。” 


Linux Journal 



译者序 


当今各行业，尤其是互联网，数据规模越来越大，要从中有效地发现模式来提髙生产 
力，用传统的方式已经几乎不可能，只能借助计算机来完 成诸多 使命。因此，机器学习 
这一新兴的学科变得越来越重要，它已经在搜索、推荐、数据挖掘等多个领域闪耀光 
芒。机器学习是一门交叉学科，内容涉及槪率论、统计学、高等数学、计算机科学等多 
门学科。该学科致力于设计一种让计算机具有“学习”能力的算法，通过发现经验数据 
中隐藏的模式，实现对未知数据的预测。 

大数据时代是机器学习最美好的时代，因为数据不再是问题，各类问题都可以收集到海 
量的数据。但是，对于很多人来说，这一门交叉学科本身却神秘而陌生，对于没有系 
统学习过相关基础学科的人来说尤其感到“高不可攀”。如今已出版的机器学习相关书 
籍中，很多都有这个特点：公式多，晦涩难懂。这让很多程序员出身的人望而却步。然 
而，在第一次读到本书的英文版时，译者就彻底相信：机器学习完全可以讲解得通俗易 
懂，让知识的传递实现“润物细无声”。 

本书*承的原则是：实践出真知，只要多动手，没有攻克不了的技术难题。因此作者预 
期的阅读对象是如电脑黑客般的人，要求对技术有发自内心的求知欲和好奇心， 愿意白 
己动手而非纸上谈兵。全书精心选择了 12个机器学习案例，由浅入深，面面俱到，既有 
基础知 I 只（如数据分析），也有当前热门的社交网站推荐案例。书中的每一个案例都由 
作者娓娓道来，逐一剖析关键算法的代码，没有丝毫学究气息，触动每个机器学习初学 
者的内心最深处。 

书中所有算法都采用 R 语言实现。 R 语言是一门用于统计学的开源脚本语言，基于它的开 
源性，有来自世界各地的开源拥护者贡献的各种统计学相关的程序包，稳定且方便，尤 
其是它对数据可视化的支持，更是一柄利器，既轻巧又实用。书中所有源代码和数据在 



原书的官方网站上都 《 r 以免费下载。在阅读过程中，犹如作者亲至身侧，为你讲解代码 
和思路，为你排除错误和优化效果。 

全书案例既有分类问题，也有回归问题：既包含监督学习，也涵盖无监督学习。所选择 
的案例妙趣横生，如分析 UFO 目去记录、破译密码、预测股票、分析美国参议员“结 
党”的情况，等等，这里就不“剧透”了，大家自己去享受学习的乐趣吧。 

书中12个案例之间的依赖关系不是特别强（除 R 语言基础知识外，其余某几章仅有个别 
知识点之间存在依赖性），可以像连续剧一样，逐一播放，也可以像-个个小品一般， 
挑感兴趣的内容分别播放。学习完这些案例之后，相信你会窥见机器学习的一斑，然后 
再根据自己的实际情况更深入地学习。 

本书翻译工作由三位来自互联网世界的工程师通力协作完成，其中，来自新浪微博的陈 
开江负责完成前言及第1〜4章的翻译；来自 H 里 B 2 B 的刘逸哲负责完成第5、8、9和11章 
的翻译，来自阿里一淘的孟晓楠负责完成第6、7、10和12章的翻译， M 时，全书审校工 
作由来自北京理工大学的罗森林教授义务承担。 

本书能够得以出版，首先要感谢机械工业出版社的吴怡编辑，是她给了我们三位工程师 
这个学习知识并传递知识的机会，她经验丰富，在翻译过程中给 予了我 们许多建设性 
的指导意见。其次，要感谢罗森林教授，他在百忙之中为我们袒任全书的审校工作，从 
而让国内的机器学习者能感受到这本书应有的魅力。最后，我们要感谢互联网，因为译 
者与本书的缘分始子互联网，从看到原书、报名翻译、组成翻译团队、翻译过程中的讨 
论，所有这样都是通过互联网完成的。 

虽然经过罗森林教授认真审校并且给我们提出了宝贵意见，但是由于译者本身水平有 
限，书中译文势必还存在不妥甚至错误之处，恳清机器学习界的广大前辈、同仁们不吝 
賜教，促使我们继续为大家更好地传递先进技术，让更多机器学习爱好者成为机器学习 
的黑客。 

我们坚信集体智慧是再高的个人智慧都无法企及的，因此真诚希望大家一起来贡献自己 
的智慧。三位译者的微博分别为: http://weibo.com/kaijiangidan (陈开江，@刑无刀）、 
http://weibo.com/liuyizhe 10 (刘逸哲，@刘逸转）、 http://weibo.com/ull 911115643 (孟晓 
楠， @Xi_anMeng) 0 无论是对翻译本身有任何意见或建议，还是对机器学习方面有 
心得，都欢迎大家到我们的微博 t 交流、切磋，我们一起贡献自己的智葱，在集体智慧 
中互相学习，共同进步。 
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刖目 


致机器学习的黑客们 

为了更好地阐释本书的切入点，很有必要对“机器学习”与“黑客”这两个词语下个 
定义。 

什么是机器学习？简单来说，机器学习就是一套工具和方法，凭借这些工具和方法我们 
可以从观测到的样本中提炼模式、归纳知识。举个例子，如果我们要让计算机识别信封 
上的邮政编码，那么需要这样的 数据： 首先是信封的图片数据，其次信封上必须有收件 
人的邮政编码。换句话说，在特定情境下，我们可以记录研究对象的行为，从中学习， 
然后对其行为建模，该模型反过来促进我们对该情境有更深入的理解。在实际项目中， 
帆器学 习需要数据，而且对当今的应用程序来说不是一点点数据（有可能达 TB 级的数 
据）。大多数机器学习技术不担心没有数据，现代企业运营所产生的数据量之大意味着 
这些技术应用的春天来了。 

什么是黑客呢？在我们眼中，黑客就是喜好用新技术进行实验、 解 决问题的人，而与 
“网络罪犯”、“不法少年”这些世俗字眼完全无关。如果你曾经手棒 O ’ Reilly 婊新出 
版的一本关于一门新计算机语言的图书，跌跌撞撞地敲下代码，并最终调试通过了你的 
第一个程序，那么你就称得上是一名黑客。或者，你曾把新买来的小机器大卸八块，并 
最终弄懂了它的整个机械结构，那么你也是个黑客。通常，黑客这样做并无特別的原 
因，只是为了享受这个过程，只是为了要彻底了解一门未知的技术。 

计算机黑客对事物原理有一种与生俱来的好奇心和动手的热情，他们（与之相对应的还 
冇汽车黑客、生活黑客、美食黑客，等等）还有软件设计和开发的经验，他们就是以前 
写过程序的人，其至很可能使用过很多种语言。对于一个黑客来说， UNIX 不是一个四 



个字母的单词，工作时用命令行导航和 bash shell 操作与用图形用户界面一样熟练。处理 
文 本时， 黑客首先想到的就是正则表达式，以及 sed 、 awk 、 grep 这些工具。在本书的写 
作中，我们也假设读者在这些方面的知识水平比较高。 

本书的组织结构 

机器学习融合了许多传统领域的理论和技术，诸如数学、统计学和计算机科学等。因 
此，学习本学科存在许多切入点。由于数学和统计学是机器学习的理论基础，因此新 
手应该在一定程度上掌握机器学习基础技术的范式。市面上已有很多这方面的优秀书 
锫，如 Hastie 、 Tibshirani . Friedman 三人的经典著作《统计学习基础 》 （The Elements 
of Statistical Learning , [ HTF 09】， 完整信息见参考书目）注、但是在黑客们的人生理念 
里，很重要的一部分 就是： 边做边学。很多黑客在面对问题的时候，更习惯于在实际操 
作过程中寻找解决方案，而非从理论基础出发推导解决方案。 

从这个角度而言，教授机器学习的另一种方法就是采用案例式教学。例如，在讲解推荐 
系统时，我们会提供一批训练样本和一版模型，然后看看模型如何使用训练样本。类似 
的参考书有很多，比较新的一本是 Segaran 的《集体智慧编程 》 (Programming Collective 
Intelligence , [ Seg 07]) 。以上的讨论只是介绍了操作方式，却没有解释为什么这样做。 
在理解了一个方法的原理时，我们也许还想知道为何这个方法适用于某个情境，或者为 
何解决 r 某个特定的问题。 

因此，为了给机器学习的黑客们提供一本更全面的参考书，我们必须在学科理论的深度 
和应用探索的广度之间寻求一个平衡。为了达到这个目的，我们决定采用案例教学的方 
式来教授机器学习。 

敁好的学习方 法是： 首先带着问题思考，然后专心研究解决问题的方法。这也是案例教 
学能有效执行的机理所在。不同之处在于，我们并不是拿一些还没有成熟解决方法的 
机器学习问题来举例，而是讨论一些已深入理解和广泛研究的问题，并列举了一些特定 
的案例辅以说明。对于这些案例，有些方法可以很好地解决问题，而有些方法却根本不 
适用。 


基干上述指导思想，本书的每-章都是基于特定机器学习问题的独立案例研究。本书前 
几个案例从分类讲到回归（第1章会进一步讨论），然后又讨论了聚类、降维、最优化 
问题等。需要说明的是，不是所有的问题都可以简单地归为分类问题或者回归问题，书 
中涉及的一些案例同时包含分类与回归问题（有些比较明显，有些不易察觉）。以下是 
本书中出现的所有案例研究的简要介绍（按出现先后顺序）。 


注 1 : 这本书也可以 Akhttp://www-stat .Stanford .eduNtibs/ElemStatLearn/ 免费下载。 
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文本 分类: 垃圾邮件识别 

这一章介绍由电子邮件文本数据引起的二分类问题。在此要处理的是机器学习中的 
经典 问题： 将某个输入识别为两个类中的一个，在这里指的就是正常邮件（合法的 
电子邮件）或垃圾邮件（用户不希望看到的邮件）。 


项目 排序: 智能收件箱 

与上个案例一样，这里还是采用电子邮件文本数据，但是不再研究二分类问题，而 
是 i : 升到研究一组具体的类别。具体来说，就是要在某一电子邮件中识別并抽取适 
当的特征，这些特征使该邮件在所有邮件中处于优先阅读的位置。 

回归 模型: 预测网页访问量 

现在介绍机器学习的第二个基本工具一线性回归。这里要处理的是关系大致逼近 
一条直线的数据。在这个案例研究中，目的是预测互 联网上 排名前1000 (2011 年） 
的网页访问量。 


正 则化: 文本回归 

有时候，我们并不能用一条直线很好地描述数据间的关系。为了描述这个关系就要 
用另一种函数来拟合，但同时又要防止出现过拟合。正则化的方法可以克服这一问 
题，同时通过一个案例加以说明，主要目的是理解 O ’ Reilly 图书中词与词之间的 


& 优化： 密码破解 

机器学习中儿乎每一个算法都可以看成是最优化问题，比如，将颅测错误率最小 
化。这里绍一个经典的算法来实现最优化，并尝试用这个算法破解一段字母密码。 

无监& 学习: 构建 股票市 场指数 

到目前为止我们的 I 寸论还局限于有监督的学习技术。在此要介绍机器学习方法上的 
另 一半： 无监督学习。两者最主要的不 同是： 有监督学习方法是使用结构化数据进 
行预测，而无监督学习是为了在数据中发现结构。因此，我们将用一批股票市场的 
数据来构建一个指数，这个指数可以衡釐整体市场行情的好坏。 

空间相 似度: 用投票记录对美国参议员聚类 

这里介绍这样一个 槪念： 样本点的空间距离。为了实现对参议员聚类，需要设计距 
离的测算方法，以及样本点基于空间距离的聚类方法。我们用美国参议员记名投票 
的数据，根据其所得投票记录对这些立法者进行聚类。 

推荐 系统: 给用户推荐 R 语言包 

为深入讨论空间相似度，我们将讨论如何搭建一个基于样本空间密度的推荐系统。 
这一章介绍 K 近邻算法，并根据程序员安装的 R 语言函数包，用这个算法来给他们 
推荐其他的 R 语言包。 


刖吕 


3 


社交网络 分析: 在 Twitter 上感兴 趣的人 

这一章会结合之前讨论过的许多槪念，并引入一些新的槪念与方法，用 Twitter 数据 
设计并搭建一个“可能感兴趣的人”的推荐系统。在这个例子中，将搭建一个系统 
用于卜载 Twitter 数据，发现其中的 圈子， 然后用基本的社交网络分析技术向用户推 
荐可能感兴趣的人。 

模型 比较： 给你的问题找到最佳算法 

最后一章讨论的是用于选择解决问题的最佳机器学习方法的技巧。这一章将介绍最 
后一个算法——支持向量机，并采用在第3章中介绍的垃圾邮件数据来比较其与其 
他算法的优劣。 

我们在探索这些案例的过程中用到的基本工具就是 R 统计编程语言 (http://www.r-project. 
orgl 、 。 R 语言非常适合于机器学习的案例研究，因为它是一种用于数据分析的髙水平、 
功能性脚本语言。很多基础算法框架已经内置在 R 语言中，或者已经在一些 R 语言包中实 
现]"，这些包可以在综合 R 档案网 （Comprehensive R Archive Network , CRAN ) 2 J ： 
找到。这可以避免为每一个实际项目写基础功能代码，从而把我们从重复劳动中解放出 
来，把精力放在思考问题的本身上。 

本书约定 

本书使用了以下排版 约定： 

斜体 

用于新术语、 URL 、 电子邮件地址、文件名与文件扩展名。 

等宽字体 (Constant width ) 

用于表明程序清单，以及在段落中引用的程序中的元素，如变量、函数名、数据 
库、数据类型、环境变量、语句、关键字。 

等宽粗体 (Constant width bold) 

用于表明命令，或者需要读者逐字输入的文本内容。 

等宽斜体 (Constant width italic ) 

用干表示需要使用用户提供的值或者由上下文决定的值来替代的文本内容。 


注意： 这个图标代表一个技巧、迮议或一般性说明。 


注 2: 关于 CRAN 的更多信息，请浏 1Lhttp:"cran.r-project.org/ „ 



警告： 这个 m 标代表一个焚告或注意事项。 


示例代码的使用 

本书提供代码的目的是帮你快速完成工作。一般情况下，你可以在你的程序或文档中使 
用本书屮的代码，而不必取得我们的许可，除非你想复制书中很大一部分代码。比方 
说，你在编写程序时，用到了本书屮的几个代码片段，这不必得到我们的许可。但若将 
O’Reilly 图书中的代码制作成光盘并进行出售或传播，则需获得我们的许可。引用示例 
代码或书中内容来解答问题无需许可。将书中很大一部分的示例代码用干你个人的产品 
文杓，这需要我们的许可。 

如果你引爪了本书的内容并标明版权归厲声明，我们对此表示感谢，但这也不是必 
需的。版权归属声明通常 包括： 标题、作者、出版社和 ISBN 号， 例如： “Machine 
Learning for Hackers by Drew Conway and John Myles White (O’Reilly). Copyright 2012 
Drew Conway and John Myles White, 978-1-449-30371-6 ” 。 

如果你认为你对示例代码的使用已经超出上述范围，或者你对是否需要获得示例代码的 
授权还不清楚，请随时联系我们： permissions@oreilly.com 。 

联系我们 

有关+书的任何建议和疑问，可以通过下列方式与我们取得 联系： 

美国： 

O’Reilly Media, Inc. 

1005 Gravenstein Highway North 
Sebastopol, CA 95472 

中国： 

北京布西城区西直门南大街 2 号成铭大厦 C 座 807 室 (100035) 

奥莱利技术咨询（北京）有限公司 

我们会在本书的 Mitt 中列出勘误表、示例和其他信息。吋以通过 
pr()d“ct/0636920CU 8483 该页面。 

要评论或洵问本书的技术问题，请发送电子邮 件到： 

bookquestions@oreilly.com 

刖目 I 5 



想了解关于 O ’ Reilly 图书、课程、会议 和新闻 的更多信息，请 I 方问以下 网站: 

http://www.oreilly.com .cn 
http://www.oreilly.com 

还可以通过以下网站关注 我们： 

我 ff KF.Facebook 上的主页： http://facebook.com/oreilly 
我们在 Twitter 上的主页： http://twitter.com/oreillymedia 


我们在 Youtube 上的主页： http://www.youtube.com/oreillymedia 
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第 1 章 

使用 R 语言 


机器学习是由软件工程、计算机科学这样的新兴学科与数学、统计学这样的传统学科交 
叉形成的一门学科。在本书中，我们会介绍统计学领域的一些有助于人们认 i 只世界的 I : 
具。统计学一直在研究如何从数据中得到可解释的东两，而机器学习则关注如 W 将数倨 
变成一些实用的东西。对两者做出如下对比更有助干理解“机器学习”这个术语：帆器 
学习研究的内容是教给计算机-些知识， 再让计 算机利用这些知识完成其他的任务。相 
比之下，统计学则€倾向干开发一些工具来帮助人类认识世界，以便人类可以更加清晰 
地思考，从而做出更佳的决策。 

在机器学习中，学习指的是采用一些算法来分析数据的基本结构，并 a 辨别其中的信号 
和噪声，从而提取出尽町能多的（或者尽可能合理的）信息的过程。在算法发现信号或 
者说模式之后，其余的所有东西都将被简单判断为噪声。因此，机器学习技术也称为模 
式识別算法。我们可以“训练”机器去学习数据是如何在特定情境中产生的，从 rfri 使用 
这些算法将许多有用的任务实现自动化。这就引出了训练集 (training set ) 这一术语， 
它指的是构建机器学习过程所用到的数据集。观测数据、从中学习、自动化识别过程， 
这三个槪念是机器学习的核心，同时也是本书的主线。本书的核心问题包含两个特别 t 
要的 梭式： 分类问题和冋归问题，这两类问题在书中会不断出现，当然我们也会教给大 
家解决方法。 


在本书中，我们假设读者具备相对较高水平的基本编程技能和算法知识。 R 语言一直是 
一门相当小众的编程语言，甚至对于许多资深程序员来说亦是如此。为了尽 ttlt 每一个 
读者都处于同一起点，本章将介绍一些 R 语言的入门基础知识。稍后还将介绍一个使用 R 
语言来处理数据的延伸案例研究。 
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警告： 本茯汴非要完整地介绍 r 编程语言。况 a 仅用一个章节来完整地介绍 r 也根本不可能。相 
反，这一章是为了让读者做好相关知识准备，进而用 R 来完成机器学习任务，尤其是用 R 来 
加载、探索、淸洗以及分析数据等。已有 I 午多不错的资源专注干 R 基础 知识，包括数据类 
型、 莧 术运筧 溉念 以及婊伴编码实践。本仿要展示的案例研究与上述这些 R 基础槪念 都有关 
联。虽然我们会谈及 h 述毎个问题， m 都不会太深人。荇读者有兴趣对这些知 W 点进行回 
顿,表 1-3 列出了可供参考的资源。 


如果你此 前从来 接触过 R 及其语法，我们强烈建议你通过阅读本章来扫杓官。 R 不像其他 
高 M 次脚本访言，如 Python 和 Ruby ， 它的语法独特且晦涩，往往不如其他编程语言容易 
上手。如果你此前 用过 R ， 但不足用于机器学习，那么在进行案例研究之前也有必要花 
时间看看以 F 综述。 

R 与机器学习 

R 是用于统计计算、绘图的语 a 和操作环境…… R 提供了丰富多样的统计功能（线 
性和非线性建模、经典统计学实验、时间序列分析、分类、聚类…… ） 和绘 ftl 技 
术，并且具有高度可扩展性。在统计方法学研究中， s 语言是一种常用的工具，而 
R 则以开源的方式跻身其中。 


-用于统计计算的 R 项目， http : ffwww . r - project.orgl 

R 敁大的优 势是： 它是由统计学家们开发的。 R 最大的劣势是……它是由统计学家 
们开发的。 

- Bo Cowgill ， Google 公司 

在处理和分析数据方面， R 是一 门非常 强大的语言。它在数据科学界以及机器学习界的 
迅速流行已经使它成为分析学领域实际上 的通用 语言。 R 在数据分析界的成 功源亍 上述 
引文中提到 的两个 因紊： 首先， R 内置了统计学家们所需的技术；其次， R 备受统计学界 
开源贡献者们的支持与推崇。 

专 N 为统计I卜兗设计的编程语言具有很多技术上的优势。正如 R 项目所述，这门语言提 
供了一座通往 S 的开源桥梁， rfiiS 中所包含的许多基础函数都是高度专业化的统计操作。 
例如，用 R 来执行一个基本的线性回归操作，你只需简单地把数据传入 lm 函数，然后函 
数返回一个包含了详 细回归 信息（回归系数、标准误差、残差等）的对象。然后，这个 
数据可以用 plot 函数进行可视化， plot 函数是专用于对分析结果进行可视化的函数。 

与科学计 T): 相关的其他大众编程语言，比如 Python ， 要实现和 lm 函数相同的功能，需 
要若干第三方库分別来完成数据表达 （NumPy ) 、进行分析 （ SciPy ) 、将结果可视化 
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( matplotlib ) 等过程。这样复杂的分析步骤， R 只需一行代码就可完成，我们将在接卜 
来的几个章节中见识到这些。 

此外，和其他科学计算环境-样， R 的基本数据类型也是向量。在本质上， Rig 言里的 
所有的数据都是向量，尽管它们有不同的聚合和组织方式。尽管这种数据结构理念比较 
僵化， 但考虑到 R 的应用，这种观点还算合乎逻辑。 R 中最常用到的数据结构就是数椐 
框 (data frame ) ,可以把它看做 R 内核中一种带属性的矩阵、一种内部定义的数椐表结 
构，或者一种关系型数据库式结构。从根本上讲，数据框就是将向量简单地按列聚合的 
结采，同时 R 为其提供一些特别的功能，这样一来，数据框就成为适用于任何形式数据 
的理想结构。 


箬告： 正因其有所长， R 也有短板—— R 并不能很好地处理大数据。尽管已有很多人在努力解决， 
但这仍然是一个严甫的问题。然而，对于我们将要探讨的案例研究来说，这不是个问题。 
我 ( N 使用的数据集相对较小，要搭建的系统也都只是原型系统或概念验证 模兜。 这个区别 
很重要，因为如果你要搭逮 Google 或 Facebook 那样规模的企业级机器学习系统，选择 R 并不 
合适。第灾上，像 GoogleifiFacebook 这些公司通常把 R 作为“数据沙箱”，用于处理数椐以 
及实验新的机器学习方法。如果某个实验有了成果，那么工程师就会把 R 中的相关功能用史 
适合的语言复现出来，比如 C 语言。 


这种实验精神也孕育出 rR 用户群的一种集体感。 R 的社会优势依赖干这个巨大不断 
成长的专家圈，是他们坚持使用并不断丰富这一语言的。正如 BoCowgill 所言，统计学 
家强烈希望有 一种计 算环境能够满足他们的特殊需求， R 才得以诞生。因此，很多 Rfll 
户都是各自领域的专家，这包括一些完全不同的学科，比如数学、统计学、生物学、化 
学、物理学、心理学、经济学以及政治学等。这个专家圈用 R 大董的基础函数打造了 1午 
许多多的程序包。在本书写作之时， R 的程序包资源库 CRAN 中就已包含 2800 多个程序 
包。在接 F 来的案例研究中，我们会 用到仵 多最流彳7的程序包，但这也仅仅是 R 的皮毛 
rfri 已。 

虽然 Cowgill 的话后半句有些言重，但是这进一步强调了 R 用户群的力量之大。随后我们 
会发现， R 古怪的语法常常让代码“错误百出”，这足以让许多资深程序员敬而远之。 
但是，在一门语言中，所有的语法难题最终都可以攻克，尤其对于那些持之以恒的黑 
客们而言。对 T •非统计学出身的人 而言， 更大的困难是不熟悉 R 中内置的数学和统计_ 
数。比如，使用 lm 函数时，如果你从未接触过线性回归，你可能就不知道结果里 Ifiiti 经 
包含了回归系数、标准误差和残差，你也不知道结果该怎么解释。 

W 为这门语言是开源的，所以你可以随时査看函数的源代码，看看内部是怎么运行的。 
本书的目的之一就是要探索这些函数在机器学习的情境下怎么使用，但这最终也只能 lh 


使用 R 语言 


11 



你窥见 R 所有功能的冰山一角。值得庆幸的是，在 R 社 R 中，很多人不仅乐于帮助你理解 
这门语言，而且乐于帮助你了解其内部的实现。表 1-1 列出了一些域佳的 R 社区。 


表 1-1: R 的社区资源 


资源 

网址 

介绍 

RSeek 

http://rseek.org/ 

当核心幵发团队决定要幵 创一个 S 的开源版，并 
称其为 R 时，他们并没有考虑到在互联网上搜索 
与这门语言相关的资料是多么不容易，因为它 
只以一 个字母命名。此工具专门用于缓解这一 
问题，提供了一个集中获得 R 文档与信息的渠道 

Official R mailing lists 

http://www.r- 

project.org/ 

rnail.html 

这里有一些 R 语言相关的邮件列表，内容包括最 
新公告、程序包、幵发以及帮助。许多该语言 
的核心开发者都经常查看该邮件列表，反馈也 
很简明、及时 

StackOverflow 

http:"stack()ver 

flow.com/ 

questions/ 

tagged/r 

黑客们都知道 StackOverflow.com 是寻求包括 R 
在内任何语言编程技巧的首选网络资源。得益 
于几位著名 R 用户的努力， StackOverflow 上总 
有很多高手一直在添加和回答 R 相关的问题 

#stats Twitter hash tag 

http://search. 

twitter.com/ 

search? q= 

%23rstats 

在 Twitter 上也活跃着相当多的 R 用户，他们 

作为他们的标签。根据这条线索你可以 
找到有用的资源链接、找到 R 高手、提问——前 
提是能用 M0 个字符把问题表述清楚 

R-Bloggers 

http://www.r- 

bloggers.com/ 

上百人都在写博客分享他们如何将 R 用于研究、 

工作或只是为了好玩。 R-bloggers.com 把这些博 
客聚合起来，并且 提供一个唯一 链接指向所有 
与 R 相关的博客内容。这里也是用案例学习的好 
去处 

Video Rchive 

http : //www.vcasmo. 

com/user/ 

drewconway 

R 用户群不断壮大，关于 R 的地方性会议也不断 
增多。 Rchive 上传视频和演示文稿，专门记录 
这些会议上的演讲及专题报告，现在该网站收 
录的报告已覆盖了全世界的 R 用户 


本章余下的内容专门教你如何配腎好 R 环境并且使用它，包括下栽和安装 R， 以及下载 R 
程序包。本章以一个小型的案例研究作为结束，该案例研究将介绍一些我们在之后章节 
常常用到的 R 知识，包括加栽、清洗、组织以及分析数据等问题。 
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下载和安装 R 

和其他开源项目一样， R 有若干个不同地区的镜像下栽站点。如果你的电 Wt 还没安装 
R ， 第 •步就 足:要 I 、裁 R 。 货 录 http:"crun.r-project.org/mirrors.html ， 选择离你•近的 
CRAN 镜像站点，选择了镜像站点后，根据你所用的操作系 统下栽 适当的版本。 

R 依赖一些用 C 或 Fortran 编译的库。 W 此，你可以安装编译好的二进制版本，也可以选择 
用源代码安装，这既取决干你的操作系统，又取决于你用源代码安装软件的熟练程度。 
接下来我们——演示如何在 Windows、Mac OS X 以及 Linux 环境卜安装 R ， 并 flil 有用 源代 
码安装和二进制安装的说明。 

婊后要说明一点， R 既有32位版本，也有64位版本。依据硬件和操作系统的配肾， 你》1 
以选择合适的版本进行安装。 


Windows 

N 站 t . 有两个子目读提供 Windows 上的 R 安装 文件： 心 w 和后者是一个 fci 含 
了所行扩展包的 Windows 二进制版本，而前者仅仅是包含基本功能的二进制安装文件。 
选抒录，然后卜'载最新编译的二进制文件即可进行安装。在 Rh 安装程序包也不 
难，而让不受语言的限制， W 此没必要用目沿下的安装文件进行安装。只要一步 
步跟宥屏幕上的安装说明即可完成安装。 

安装成功之后，在你的开始菜单中就有 R 应用程序的图标，可以用这些图标打开 R 阁形用 
户界面 ( RGui ) 和 R 控制台 (R Console ) ,见图1-1。 

对于 Windows 系统下的大多数标准安装，这个过程不会出什么问题。如果你选抒定 
义安装或者在安装过程中遇到了一些问题，你可以在你所选择的镜像站点 h 找到 R for 
Windows FAQ 页面，査询问题。 


Mac OS X 

Mac OS X用户就幸运得多了，因为操作系统已经预装了 R。 你吋以打开 Terminal.app， 
然后在命令行屮输入 “ R ” 确认足否已安装 R。 这样你就万事俱备了！然而，对部分用 
户来说， 需 耍安装 GUI 应用程序来与 R Console 进行交互，如此就得冉安装一个软件。在 
Mac OS Xf , 你也以选择安装编译好的二进制版本，或者用源代码安装。对干没用 
过 Linux 命令行的用户，我们推荐使用二进制版本安装。 P 、 • 蒸在 http:ffcran.r-project.org/ 
上选择镜像站点，下载最新版本，然后按照屏幕说明操作就可以了。安装完 
成后， 在你的 Applications 文件夹下有两个文件： R.app (32 位版本）和 R64.app ( 6 4位版 
本）。你可根据硬件的配1和 Mac OSX 的版本选择其中一个版本。 
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图 1-1: Windows 系统下 RGui 与 R Console 

与 Windows 系统下的安装过程一样，如果你在 Mac OSX 下用二进制版本安装，那么整个过 
程都不会有什么 H 题。打开刚安装好的 R 应用程序，出现的 console 界面和图 1-2 差不多。 


良胃 n ^ s - i 




:R version 2.12.1 (2010-12-16) 

jCopyright (C) 2910 The R Foundation for Statistlcol Coi^Kiting 
ISSN 3 9MQH0 

Platform: x86.64-opp\e-dorwln9.8.0/xS6.64 (64-blt) 

R is free softnore and cows m\tb AISOtUTELY MO WARRANTY. 

You ore m\come to redistribute tt under certain conditions. 
Type # lic«nseO* or •UcenceO* for distribution detoils. 


atolls. 


Motural longuoge support but running tn on English locole 

R is a coUoborotive project with many contributors. 

Type # contrihjtorsO # for tiore tnfanwtioo ond 
•cttationO* on hom to ette R or R pockages In publications. 

Type for sow 6tmo% 9 # h«lp<) # for on-lin€ h«lp # or 

'help.start()* for on KTIC broivstr interface to help. 

Type *qCY to ault R. 


CR.opp GUI 1.35 (5665) x86_64-apf)lt-dorma9.*.*] 
[History restored from /Users/ogconwoy/.Rhistory] 


图 1-2: Mac OS X 系统下 64 位版本的 R 控制台界面 
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注意： 如果你的 Mac OS X 足自定义安装的，或者你想根据自己的配置自定义安装 R ， 那么逮议 
使用源代码安装。在 Mac OS X 系统下用源代码安装 R 同时需要 C 和 Fortran 两种语言 的编译 
器，而该操作系统的标准安装中没有这两个编译器。你可以使用 Mac Os X 开发者工具盘 
( DVD ) 来安装这两个编译器，这个盘在 Mac Os X 原始安装盘中。你也可以从镜像站点 h 
的 tools 目录下找到必需的编译器然后进行安装。 


具备源代码安装所需的编译器之后，其安装过程就与大多数使用命令行安装的软件一 
样，经典的三个步骤： configure 、 make 和 install 。 用进入放源代码的路径， 
执行以卜‘命令： 

$ ./configure 
$ make 

$ make install 

由干操作系统中用户权限的不同，在执行第一步之前，你可能需要输入系统密码来激活 


sudo 权限。如果在二进制安装和源代码安装过程中遇到了任何问题，都可以到镜像站点 
伽 for Mac OS X FAG 页面査询原因。 


Linux 

i 午多版本的 Hnux 和 MAC OS X —样，都预装了 R 。 只需在命令行敲入 “ R ” ，就可以加 
栽 R 控制台。接着，你就可以开始编程了！ CRAN 上也有 Debian 、 RedHat 、 SUSE 以及 
Ubuntu 这些不同 linux 版本相应的 R 安装文件及安装说明。如果你使用其中一个版本进行 
安装，我们建议参考针对你的操作系统的安装说明，因为不同版本的 Linux 操作系统，其 
最佳实践存在的差异相当大。 


集成开发环境和文本编辑器 

山干 R 是一种脚本语言，因此在接下来的案例研究中大部分的工作都要用集成开发环境 
(1 DE ) 或者文本编辑器来完成，而不是直接在 R 控制台上输人程序。从下一节的内容 
甲.，你会发现有些工作适合直接在控制台上完成，比如安装程序包，但是大多数时候你 
还是愿意在 IDE 或者文本编辑器中写程序。 

在 Windows 或者 Mac OS X 环境里运行的 R 图形用户界面，程序中都有一个基本的文本编 
辑器。如果你想新建一个空白文档，你可以在菜单上依次选择 Hie—New Docuniem (文 
件一新建程序脚本），也可以直接单击窗口顶部的空白文档图标（图 1-3 中髙亮处）。 
作为一个黑客，你应该已经有一个 IDE 或者文本编辑器了，我们建议你在本书的案例研 
究过程中从这两者中选择婊熟悉的环境来开发。界面上还有很多选项，在此不冉一一列 
举，我们也不想卷入 Emacs 和 Vim 之争。 
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图 1-3: R 图形用户界面上的文本编辑器图标 


安装和加载 R 程序包 

0前巳有很多精心设计、维护良好且广泛支持的与机器学习相关的 R 程序包。在我们要 
进行的案例研究屮，涉及的程序包主要 用于： 处理空间数据、进行文本分析、分析网络 
祐扑等，还有些程序包用于与网络 API 进行交互，当然还有其他很多功能，不胜枚举。 
W 此，我们的任务很大程度上会依赖内置在这些程序包的函数功能。 

加我 RftUt •包很简单。实现加栽的两个函数是： library 和 require 。 两者之间存在细 
微荖別， iff 本 B 中，主要差 別是： 后者会返回一个布尔值 （ TRUE 或 FALSE ) 来表示是否 
加栽成功。例如，在第6章中，我们会用到 tm 程序包来分词。要加载该程序包，我们既 
吋以⑴ library 也可以用 require 。 在1、面所举例子中，我们用 library 来加载 tm 包，用 
require 来加栽 XMLti ， 再用 print 函数来示 require 函数的返回值。'以看到，返回的 
布尔值是 “ TRUE ” ， 可见 XML 包加载成功了。 


library(tm) 
print(require(XML)) 

#[1] TRUE 

假如 XML 包还未安装成功，即 require 函数返回值为 “ FALSE ” ， 那么我们在调用之前仍 
需先安装成功这个包。 


注意：如果你 刚安装成功 R 环境，那么你还需要安装较多的程序包才能完成本书的所有案例研究。 


在 R 坏境屮安装程序包有两种方法：可以用图形用户界面进行安装，也 " f 以用 R 控制台中 
的 install . packages 函数来安装。考虑到本书口标读者的水平，我们在本书的案例研究 
中会全部采用 R 控制台进行交互，但还是有必要介绍一下怎么用图形用户界面安装程序 
包。在 R 应用程序的菜单栏上，找到 Packages & Data—Package Installer (程序包一安装 
程序包），点击之后弹出如图 1-4 所示的窗口。从程序包资源库的下拉列表中选择 CRAN 
( binaries ) (CRAN (二 进制 ）） 或者 CRAN ( sources ) (CRAN (源代码 ）） ，点击 
Get List (获取列表）按钮，加栽所有可安装的程序包，最新的程序包版本可以从 CRAN 
( sources ) (CRAN (源代码 ）） 资源库中获取。如果你的计算机上已经安装 f 所需的 
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编译器，我们推荐用源代码安装。接着，选择要安装的包，然后点击 Install Selected (安 
装所选包），即可安装。 
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图 1-4: 用图形用户界面安装 R 程序包 

相比 rfri 言，用 install . packages 函数来安装是一种£佳的方法，因为它在安装方式和安 
装路径上更为灵活。这种方法的主要优势之一就是既可以用本地的源代码，也 町以用 
CRAN h 的源代码来安装。虽然以 F 这种情况不太常见，但仍然有可能会需要。有时你 
可能要安装一些 CRAN 上还未发布的程序包，比如你要将程序包更新到测试版本，那么 
你必须用源代码进行 安装： 


install.packages( M tm" , dependencies=TRUE) 
setwd("* v /Downloads/ w ) 

install.packages("RCurll.5-0.tar.gz", repos=NULL, type*"source") 

第一行代码中，我们用默认参数从 CRAN 上安装了 tm 程序包。 tm 程序包用于文本挖掘， 
在第3 穿:将 用它来对电子邮汁文本进行分类。 install . packages 中一个很冇用的参数是 
suggests ， 这个参数默认值是 FALSE ， 如果设置为 TRUE ， 就会在安装过程中通知 install , 
packages 函数 F 载并安装初始安装过程所依赖的程序包。为了得到最佳实践，我们推荐 
将此参数值一直设賈为 TRUE ， 当 R 应用程序上没有任何程序包的情况下吏要如此。 

N 样还有另-种安装方法，那就是直接使用源代码的压缩文件进行安装。在上一个例子 
中，我们用作者 M 站上的源代码安装 TRCuirl 程序包。用 setwd 函数确保 R 的工作路径已 
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设置为 保存源代码的目录，然后就可以简单地执行前面的命令从源代码安装了。注意， 
这里需要改动两个参数。首先，我们必须设置 repos = NULL 来告诉函数不要使用 CRAN 中 
任总一个资源库，然后要设置 type =" source " 釆告诉函数使用源代码安装。 

表 1-2: 本书中用到的程序包 


名称 

网址 

作者 

简介及用法 

arm 

http://cran .r-project.org/ 
web/packages/arm/ 

Andrew Gelman 等 

用于构建多水平 / 层次回归模型的 
程序包 

ggplot 2 

http://had.co.nz/ggplot2 / 

Hadley Wickham 

是图语法在 R 中的实现，是创建 
高质量图形的首选程序包 

glmnet 

http ://c ran r-project.org/ 
web/packages/glmnet/ 

index.html 

Jerome Friedman 、 

Trevor Hastie 和 

RobTibshirani 

包含 Lasso 和 elastic - net 的正则化 
广义线性模型 

igraph 

http://igraph sourceforge 

.net/ 

Gabor Csardi 

简单的图及网络分析程序，用于 
模拟社交网络 

lme 4 

http://cran .r-project.org/ 
web/packages/lnte4 / 

Douglas Bates 、 

Martin Maechler 和 

Ben Bolker 

提供函数用于创建线性及广义混 
合效应模型 

lubridate 

https://github.com/ 

hadley/lubridate 

Hadley Wickham 

提供方便的函数，使在 R 环境中 
处理曰期更为容易 

RCurl 1 

http://www.omegahat. 

org/RCurl/ 

Duncan Temple Lang 

提供了一个与 libcurl 库中 HTTP 协 
议交互的 R 接口，用于从网络中 
导入原始数据 

reshape 

http://had.co.nz/plyr/ 

Hadley Wickham 

提供一系列工具用于在 R 中处 
理、聚合以及管理数据 

RDSONIO 

http://www.omegahat. 
org/RJSONlO/ 

Duncan Temple Lang 

提供读写 JSON (JavaScript 

Object Notation ) 数据的函数， 
用于解析来自网络 API 的数据 

tm 

http://www.spatstat.org/ 

spatstat/ 

Ingo Feinerer 

提供一系列文本挖掘函数，用于 
处理非结构化文本数据 

XML 

http://www.omegahat. 

1 org/RSXML/ 

Duncan Temple Lang 

用于解析 XML 及 HTML 文件，以 
便从网络中提取结构化数据 


前文已经提到过，在本书中我们会使用一些程序包。表 1-2 列出了本书的案例研究所用到 
的所有程序包，包括对其用途的简单介绍，以及査看每个包详细信息的链接。安装所需 
程序包的数量不少，为了加快安装过程，我们创建了一个简短的脚本来检査每个必需的 
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程序包是否已安装，若没有安装，它会通过 CRAN 进行安装。要运行该脚本，先用 setwd 
函数将工作目录设置为本章代码所在的文件夹，再执行 source 命令，如下 所示： 


source("package_installer.R M ) 

如果你还没有安装过程序包，系统可能要求你选择一个 CRAN 的库。一旦设置完成，脚 
本就开始运行，你就可以看到所有需要安装的程序包的安装进度。现在，我们就要用 R 
开始机器学习之旅了！在我们开始案例分析之前，我们仍需要回顾一些常用的 R 相关的 
函数与操作。 

机器学习中的 R 基础 

在本书开篇，我们就提出，学习新技术的最好方式足从你渴望解决的问题或你渴空解答 
的疑问入手。对任务的较高层次愿詨满怀激情，这会让你从案例中有效地学到知识。这 
里我们要介绍的 R 基础知识并不会涉及机器学习问题，但是我们将遇到一些 R 中数据处理 
和管理相关的问题。在案例研究中可以发现，常常要花很多时间来规整数据，使其格式 
统一、组织合理以便分析。而花在编写代码、运行分析的时 N 常常较少。 

在接下来这个案例中，我们提出的问题纯属为了好玩。最近，数据服务商 
com 发布了一个数据集，其中含有60 000多条不明飞行物 （ UFO ) 的目击记录和报道。 
这份数据时间跨度几百年，地域 覆盖全 世界。虽然数据涵盖全球，但是主要的目击 id 录 
都发生在美国。面对这份数据的时空维度，我们可能会有以下 疑问： UFO 的出现是否有 
周期性规律？美国的不同州出现的 UFOi 己录如果有区别，有哪些区別？ 

我们要探索的是一个很棒的数据集，因为它数最巨大、高度结构化，同时也很有趣。因 
为它是个大文本文件，而且我们在本书中要处理的数据都属于这一类型，所以练习一下 
很有用。在这样的文本文件中，常常有一些杂乱的记录，我们会用 R 中的基本函数和扩 
展库来清洗和组织原始数据。本节我们会带你一步一步地了解整个简单分析的过程，并 
试图回答前文提到的两个问题。在本 章的⑺ 文件夹下有一个 文件： “fo_si g hti n gs.R ， 这 
是本章所用的脚本源代码。我们首先从加载数据和所需的库开始。 

加载程序包和数据 

首先，加载的是 ggplot 2 程序包，我们会在敁后一步——可视化分析的时候用到它。 


library(ggplot2) 

加载 ggplot 2 的过程中，你会注意到这个包还加栽了另外两个所需的程序包： plyr 和 
reshape 。 这些包在 R 中用干处理和组织数据，同时我们也会在本例中用 plyr 程序包来完 
成数据的聚合和组织。 
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其次，从文本文件加栽数据，文件在本章目录下的 dam / w / o/ 中。注意一 
点，该文件字段足制表符分隔的（因此扩展名是 AV ) ,这意味着我们要用 read.delim 
函数来加我数据。因为 Rft 接使用默认值的地方很多，因此我们在脚本中使用闲数时要 
特别注意默认参数的设置。假设我们此前从未用过 read.delim 函数，为 r 更好地了解 R 
中参数的意义，则需要阅读帮助文档。或者，假设我们不知道 read.delim 这个函数的存 
在，但需要用一个函数将分隔字段的数据读到一个数据框中。 R 提供了一些有用的函数 
来解决这些 问题： 


?read.delim 
??base: : delim 
help.search (㈣ delimited") 
RSiteSearch( M parsing text") 


# 读取•个函数的帮助文档 
林 在所有 base 包的侬助文档中搜尜 ’ delim’ 
# 在所 fl 的帑助文朽中搜索 “delimited” 

# 在 R 官方网站 I: 搜索 “parsing text" 


在第一个例子中，我们在闲数名前面加 f 个问号。这样就会打开这个函数的帮助文档， 
这足 R 中很有用的一个快捷方式。我们也可以在一个程序包中搜索一个特定词，这盂 
要？？和 ••： 结合使用。双问号表示搜索一个指定的词。在这个例+中，我们用双 H 号表示 
在所 ttbase 包的函数屮搜索指定 isjdelim。R 也允 i 午你进行半结构化的帮助搜索，这会用 
到 help.search_RSiteSearch。help .search 能在所有已安装的程序包中搜索指定的 id， 
如上述例中的 delimited。 另外，还吋以用 RSiteSearch 搜索 RN 站I:的帮助文档和邮件 
列表。请注意，丁•万别以为我们已经把这章要用的涵数或者所有 R+II 关的知识郎回顾完 
了。我们极力推荐你 A 己独立地用这些搜索函数去研究 R 的其他基本闲数。 


[叫到 UFO 的数据处理上，为 r 正确地读取数据，我们得给 read.delim 函数手动设茛一 
些参数。先，需要告诉函数数据字段足怎么分隔的。我们知道这个文件是制表符分隔 
文汴，所以把 sep 设置为制表符。然后， read.delim 函数在读取数据的过程中会用一些 
启发式规则把每一行转换成 R 的数据类型。在本例中，每一行的数据类型都是 strings 
(字符 串）， 但是所冇 read.* 函数都默认把字符串转换为 factor 类型，这个类型是用 
来表 / A 分类变 it (categorical variable ) 的，并不是我们想要的。因此，我们需要设背 
stringsAsFactors=FALSE 来防止其转换。实际上，把这个默认值设置为 FALSE —般都+ 
会错，尤其是处理不熟悉的数据时。此外，这份数据第一行并没有表头，因此还需要 
把表头的参数 设置为 FALSE ， 以防止 R 默认把第一行当做表头。最后，数据中有许多空 
元桌，我们想把这些空元素设置为 R 中的特殊值 NA ， 为此，我们诂式地定义空字符串为 
na.string ： 

ufo<-read.delim("data/ufo/ufoawesome.tsv", 

sep="\t", stringsAsFactors=FALSE,header=FALSE, na.strings’") 

注意： h 文提到的术 i/i “分类变以”指的 iiR 屮的•种数据类型，它表氺在类体系屮观察到 
的一个类別成员。 在统汁 学中，分类变 ft 是一个很重要的概念，因为我们会 关心： 对干一 
定的类型，它由哪些特定观察值构成。在 R 中，川 factor (因 子） 类型表示分类变货，其本 
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质 k 是给每一个字符申标签陚千一个数 值。 在本例中，我们用 as.factor 把某些字符串（比 
如说州的缩写）转换成分类变徽，它会给数据集中每个缩写州名陚 f 一个独一无二的数值 
1 D 。 这个过程我们今后会多次碰到。 


现在，我们已有一个装着所有 UFO 数据的数据框了。无论何时，只要你操作数据框， 
尤其当数据是从外部数据源读人时，我们都推荐你手丄查看一下数据。关于 T •工査看数 
据，两个比较好用的函数是 head 和 tail 。 这两个闲数会分別打印出数据框中的前六条和 
后六条数据 记录： 


head(ufo) 

Vl V2 

1 19951009 19951009 

2 19951010 19951011 

3 19950101 19950103 

4 19950510 19950510 

5 19950611 19950614 

6 19951025 19951024 


V3 V4 

Iowa City, IA <NA> 
Milwaukee, MI <NA> 
Shelton, WA <NA> 
Columbia, M0 <NA> 
Seattle, WA <NA> 
Brunswick County, ND <NA> 


V5 
<NA> 
2 min. 

<NA> 
2 min. 

<NA> 
30 min. 


V6 

Wan repts. witnessing "flash.. 
Man on Hwy 43 SW of Milwauk.. 
Telephoned Report : CA woman v" 
Man repts. son's bizarre sig.. 
Anonymous caller repts. sigh.. 
Sheriff's office calls to re.. 


这个数据框最明 w . 的特点是袵一列的名卞没有实阮怠义。参考一下这份数据的文档，我 
们可以赋予每一列更有意义的标签。给数据框每一列赋予有意义的名称很 隶要。 这样一 
来，不管对自己还足其他人，代码和输出都有更强的可读性。我们会用到 names 闲数， 
这个闲数既能读取列名，乂能写入列名。我们要根据数据文档创建一个与数据集的列名 
相应的字符串向 tt ， 然后把它作为 names 闲数唯一的参数传人： 


names(ufo)<-c("DateOccurred","DateReported”,"Location", 

"ShortDescription", w Duration M , M LongDescription") 

从 head 函数的输出以及用 K •创建 列标签 的文档 w ]* 知，数据的前两列是 H 期。 R 中的 
n 期是一种特殊的数据类型，这和 K 他编程语言没什么不同，因此我们想把11期字 
符串转换为这种真正的 H 期数据类型。这需要用到 as . Date 函数，给它输人 n 期字符 
串，它会尝试将其转换为 Date 对象。在这份数据中，字符串的 n 期格式是不太常见的 
YYYYMMDD 。 因此，需要给 as . Date 指定一个「1期格式字符串，这样它才知道该怎么 
转换。我们从第一列 DateOccurred 幵始转换： 

ufo$DateOccurred<-as.Date(ufo$DateOccurred, format="%Y%m%d") 

Error in strptime(x, format, tz = "GMT") : input string is too long 

我们遭遇了第一个错误！尽管不知道错在哪，但是这个错误提到了 “input string is too 
long” （输人字符串过长），这说明 DateOccurred 列中某些数椐太长导致 H 期格式字符 
串无法匹配。为什么会出现这种情况呢？我们正在处理的是-个很大的文本文件， 闪此 
可能存些数据在原始数据巢就是畸形的。如果出现了这种情况，这些畸形的数据就不能 
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被] read . delim 函数正确地解析，从而就导致了如 t 所示的错误。因为我们处理的足真实 
世界的数据，所以必须手工清理数据。 


转换日期字符串及处理畸形数据 

要解决这个问题首先必须准确定位这些有缺陷的数据，然后再决定怎么处理。还好我们 
能从这个提示信息中知道错误的原因是数据“过长”。能够被正确解析的字符串肯定都 
是8个字符，也就是 “ YYYYMMDD ” 这种格式的。为找出有问题的数据行，我们只需 
要找出那些 K : 度在8个字符以上的字符串。作为一项最佳实践，我们首先要査看畸形数 
椐到底是什么样的，以便对错误原因有 史深的 理解。在这个例子中，我们还是像之前那 
样用 head 函数来检奄由逻辑运算返回的结果数据。 

然后，为了移除错误的数据行，我们需要用到 ifelse 函数来构建一个布尔值向8:，以便 
标识出哪些是8个字符的字符串 （ TRUE ) ,哪些不是 （ FALSE) 。 if else 函数是一个典型 
的逻辑开关，用干布尔测试，而此处用到的是其向量化版本。我们还会在 R 中遇到很多 
向量化操作的例子。这种机制在用干处理数据循环迭代 时电士 优势，因为这通常（但并 
非总是）比直接对向量进行循环更有效& 1 : 

head(ufo[which(nchar(ufo$DateOccurred) !=8 
| nchar(ufo$DateReported)!=8),l]) 

[1] "ler@gnv.ifas.uil.edu" 

[2] "oooo M 

[3] "Callers report sighting a number of soft white balls of lights headinginan 
easterly directing then changing direction to the west beforespeeding off to the 
north west." 

[ 4 ] " 0000 " 

[ 5 ] " 0000 " 

[ 6 ] " 0000 " 


good.rows<-ifelse(nchar(ufo$DateOccurred)!=8|nchar(ufoSDateReported)!=8, 

FALSE,TRUE) 

length(which(!good.rows)) 

[1] 371 

ufo<-ufo[good.rows,] 


在这个搜索过程中，我们用到了一些有用的 R 函数。我们需要知道 DateOccurred 和 
DateReported 这两列中每一行字符串的长度，所以用到了 nchar 函数。如果长度不等 F 
8,则返冋 FALSE 。 得到了布尔值向量之后，我们想知道数据集中有多少畸形数据。这 
样就用到了 which 函数，它返回一个包含 FALSE 值的向最。接下来，用 length 函数计算这 
个向 M 的长度就可以知道畸形数据的条数。仅仅371条数据不规范，坫简单的办法就是 


注丨： 在 R 咨均中心有对向量化操作原理的间要 介绍： 能不能不要饨环或者说让循环更快点？ 
(How can I avoid this loop or make it faster?) [F08] 
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移除并忽略它们。一开始我们可能会担心丢弃这371条畸形数据会不会带来什么后果， 
但是总共有 6 0 000多条数据，因此简单地忽略它们然后继续转换其他数据，不会有什么 
影响： 


ufo$DateOccurred<-as.Date(ufo$DateOccurred, format*"%Y%m%d") 
ufo$DateReported<-as.Date(ufo$DateReported, format="%Y%m%d") 

接下来，我们需要清洗、组织目击地点数据。回忆一下我们之前用 head 函敉査看到的美 
国 UFO 目击数据，地点数据的形式是 “ City , State ” （城市，州）。我们可以通过 R 中 
集成的正则表达式，将字符串拆分成两列，并识別出不规范的数据行。其中识别出不规 
范数据尤为重要，因为我们只对在美国的 UFO 目击数据变化趋势有兴趣，而且用这一步 
的信息也能把美国的数据单独挑出来。 

组织目击地点数据 

为了继续用上述方式处理数据，首先要定义一个输入为字符串的函数，然后执行数据沾 
洗工作。接下来用 apply 函数的向景化版本将这个函数应用到地点数据 列上： 

get.location<-function(l) { 

split.location<-tryCatch(strsplit(l,", M )[[l]],error= function(e) return(c(NA, NA))) 
clean.location<-gsub(" A split.location) 
if (length(clean.location)>2) { 
return(c(NA,NA)) 

} 

else { 

return(clean.location) 


上述函数中有-些细节需要注意。首先， strsplit 函数被 R 的异常处理函数 tryCatch 所 
包围。其次，并非所有地点都是 “ City ， State ” （城市，州）这种格式，甚至有的数据连 
逗号也没有。 strsplit 函数在遇到不符合格式的数据会抛出一个异常，因此我们需要捕 
获 （ catch ) 这个异常。在本例中，对于不包含逗号的数据，我们会返回一个 NA 向 请来表 
明这条数据无效。接下来，由于原始数据的开头有一个空格，因此用 gsub 函数 （ R 的正 
则表达式相关函数之一）移除每个字符串开头的空格。最后，增加一步检査，确保毎个 
返冋向最的长度是2。许多非美国地名中会有多个逗号，导致 strsplit 函数返回的向 
长度大于2。在这种情形下，我们依然返回 NA 向 ft 。 


有了定义好的函数之后，我们要用到 lapply 函数了，它是 “ list - apply ” （应用后返回 
list 链表）的简写，用来对 Location 列的每一条字符串循环迭代地应用我们定义的函 
数。前文提到过， R 中的 apply 函数家族相当有用。这些函数的形式都是 apply ( vector , 
function ), 它们在逐一应用到向镊元素上之后，返回特定形式的结果。在本例中，我们 
用到的是 lapply , 它返回一个 list 链表： 
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city.state<-lapply(ufo$Location, get.location) 
head(city.state) 

[[!]] 

[1] "Iowa City" "IA" 

[[ 2 ]] 

[1] "Milwaukee" "WI" 

[[3]] 

[1] "Shelton" "WA" 

[[4]] 

[l] "Columbia" "MO" 

[[5]] 

[1] "Seattle" "WA" 

[[ 6 ]] 

[l] "Brunswick County" "ND" 

从例 f 中可以看出， R 中的 list 是一个“键-值”对形式的数据结构。键由双方栝号索 
引，值则包含在单方括号中。在本例中，键就是简单的整数，但足 lists 也允许用字符 
中作为键42。虽然把数据存储在 list 中比较方便，但是却并不是我们想要的，因为我们想 
把城市和州的佶息作为不同的两列加人到数据框中。为此，需要把这个较长的 list 转换 
成一个两列的矩阵 （ matrix ) ，其中 city (城 市） 数据作为其 首列： 


location.matrix<-do.call(rbind, city.state) 

ufo<-transform(ufo,USCity=location.matrix[,l], USState=tolower(location.matrix[,2]), 
stringsAsFactors=FALSE) 

为从 list 构造一个矩阵，我们用到了 do . call 函数。和 apply 函数类似， do . call 确数是 
在一个 list 上执行一个函数调用。我们还会经常把 lap ply 和 do.c a 11函数结合起来用于 
处理数据。在上述例子中，传人的闲数是 rbind , 这个函数会把 city . state 链表中的所 
有向歐一行一行地合并起来，从而创建一个矩阵。要把这个矩阵并人数据框中，还要用 
到 transform 函数。分別用 location . matrix 的第-列和第二列创建两个新列： USCity 和 
USState 。 敁后， 由干州名字的缩写形式不一致，有的采用大写形式，有的采用小写形 
式，因此我们用 tolower 函数把所有的州名卞的缩写都变成小写形式。 

处理非美国境内的数据 

数据清洗要解决的最后一个问题就是处理那些形式上符合 “ City ， State ” ，但是实际上并 
不在美国境内的数据。具体来说，有些 UFO 目击地点在加拿大，而这些数据同样符合这 
样的形式。幸好加拿大各省的缩写和美国各州的缩写并不匹配。利用这一点，我们可以 


注2:要深入理 _ lists ， 请参考 《Data Manipulation with R 》 一书中的第1章 [ Sepl 8】。 
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构造 "•个 美国各州缩写的向址， ihUSState 列数据来匹配这个向把匹配上的保留下 
来，从而识別出非美国 地名： 

us.states<-c( ,, ak ,, /al ,, , M ar M , M az M , M ca ,, , M co ,, / , ct H , ,, de n , ,, fl ,, , ,, ga ,, /hi ,, , n ia H , ,, id w , ,, il M /in M , 

,, nv^ ,, ny^ ,, oh^ M ok^ ,, or^ ,, pa^ M ri^ ,, sc^ ,, sd^ ,, tn ,, /tx^ ,, ut^ ,, va^ ,, vt^ M wa^ ,, wi^ ,, wv^ 

"wy") 

ufo$USState<-us.states[match(ufo$USState,us.states)] 
ufo$USCity[is.na(ufo$USState)]<-NA 

为了找到 USState 列中不匹配美国州名缩写的数据，我们用到了 match 函数。这个函数有 
两个 参数： 第一个参数是待匹配的值，第二个是用于匹配的数据。函数返回值是一个 K : 
度与第一个参数相同的向景，⑹景中的|爽是其在第二个参数中所匹配的值的索引。如采 
没有在第二个参数中找到匹 Sd 的值，闲数默认返回 NA 。 在我们的案例中，我们只关心哪 
些数据返为 NA ， 因为这表明它们没有匹配上美 W 州名。然后， JTlis.na 函数找出这些 
不是美冈州名的数据，汴 R . 将其在 USState 列中的值甫背为 NA 。 婊后，我们还嬰把 USCity 
列屮对应位置也设置为 NA 。 

现在原始数据框已经处理到位，可以 从中只 抽取出我们感 V 〈•趣 的数据了。准确地说，我 
们想要的数据只足： M 发生在美 W 的 UFOi 己录子集。通过#换前面儿步中不符合条件的 
数据，我们用 subset 命令创逮一个新数据框，只保留发生在美闻的数据 记录： 


ufo.us<-subset(ufo, lis.na(USState)) 
head(ufo.us) 



DateOccurred DateReported 

Location ShortDescription 

Duration 

1 

1995-10-09 1995-10-09 

Iowa City, IA 

<NA> 


<NA> 

2 

1995-10-10 1995-10-11 

Milwaukee, WI 

<NA> 

2 

min. 

3 

1995-01-01 1995-01-03 

Shelton, WA 

<NA> 


<NA> 

4 

1995-05-10 1995-05-10 

Columbia, M0 

<NA> 

2 

min. 

5 

1995-06-11 1995-06-14 

Seattle, WA 

<NA> 


<NA> 

6 

1995-10-25 1995-10-24 Brunswick County, ND 

<NA> 

30 

min. 


LongDescription 

USCity 

USState 


1 

Man repts. witnessing "flash... 

Iowa City 

ia 



2 

Man on Hwy 43 SW of Milwauk... 

Milwaukee 

wi 



3 

Telephoned Report:CA woman v … 

Shelton 

wa 



4 Man repts. son's bizarre sig … 

Columbia 

mo 



s 

Anonymous caller repts. sigh … 

Seattle 

wa 



6 

Sheriff's office calls to re … 

Brunswick County 

nd 




聚合并组织数据 

到 u 前为止，我们已经把数据组织成可以开始分析的程度了。上一节专注于规范数据的 
格式，并筛选出要分析的相关数据。本节将继续探索数据，以期进一步缩小我们需要 
关注的范 W 。 这份数据有两个 基本的 维度：空间维度 （ S 击事件发生地点）和时间维度 
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(目击事件发生时间）。上一节我们关注空间维度，这一节将关注时间维度。首先，我 
ffl 要对 DateOccured 这列数据应用 summary 函数，从而对数据的年代范围有 个基本 认识： 


summary(ufo.us$DateOccurred) 

Min. 1st Qu. Median Mean 3rd Ou. Max. 

"1400-06-30" "1999-09-06" "2004-01-10" "2001-02-13" "2007-07-26" "2010-08-30" 

令人称奇的是，这份数据时间跨度很长，最古老的 UFO 目击 i 己录可追溯到1400年前！ 
肴到这个异常的年份数据，我们不禁要问 的是： 这份数据在时间上到底是如何分布的？ 
是否值得分析整个时间序列？进行直观判断最快的方法就是构建一个直方图。我们将在 
第2章详细 W 论直方图，不过现在你需要知道 的是： 直方图就是让你在某个维度上把数 
据划分成 不间的 区间，然后观察数据落入每个区间的频度。此处我们感兴趣的维度是时 
间，因此构建一个直方图，把数据按照时间进行区间划分： 


quick.hist<-ggplot(ufo.us, aes(xsDateOccurred))+geom_histogram()+ 
scale_x_date(major="50 years") 

ggsave(plot=quick.hist, filename^"../images/quickhist.png", height=6, width=8) 
statbin: binwidth defaulted to range/30. Use 'binwidth = x' to adjust this. 

这甲.要注意儿点。这是我们第一次用到 ggpl0t2 程序包，并将在本书所有需要可视化数 
据的地方用到。在这个例子中，我们构建了一个非常简单的 ft 方图，它只用了一行代 
码。旨先，用 UFO 数据框作为初始化参数创建一个 ggplot 对象。接 F 来，为了美观， 
把 x 轴设定为 DateOccuirired 列，因为这一列的颊数才是我们所感兴趣的。 ggplot2 操作 
对象必须是数据框，而且创建 ggplot2 对象的第一个参数也必须是一个数据框。 ggplot2 
是对 Leland Wilkinson 的图语法 (Grammar of Graphics ) [ Wil 05】 的一种 R 实现。这说明 
ggplot2 程序包与这种特别的数据可视化哲学是一脉相承的，所有的可视化都是通过 
一 •系列的层构逮而成的。在图 1-5 所示的直方图中，初始层便是 x 轴的数据，即 UFO 的 
H 占日期。接着用 geom histogram 函数添加一个直方图层。在这个例子中，调用 geom_ 
histogram 函数时使用了其默认参数，而我们在今后会意识到，这样并不是好的选择。 
最后，由干数据的时 间跨度 太大，我们用 scale_x_date 函数将 x 轴标签的时间周期改为 
50年。 

ggplot 对象创建完毕之后，用 ggsave 函数可以把可视化结果输出到文件里。也可以用 
prinUquick . hist ) 把可视化结果输出到屏幕上。请注意，在输出可视化结果时会出现繁告 
信息。 在直 方图中给数据划分区间的方式有很多种，在第2章中我们会详细 讨论， rffi 这 
里输出的警告信息清楚地显示 fggplot 2 在默认情形下是如何给数据划分区间的。 

我们现在就用这份可视化结果对数据一探究竟。 
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图 1-5: UFO 数据随时间变化的直方图 


从图 W 5 可以看出来，结论显而易见。绝大部分的目击事件发生在1960〜2010年，而其屮 
最 主要的乂发生在过去20年间。考虑到我们的目的，只需要关注1990〜2010年的数据即 
可。这样我们就能够在分析过程中悱除异常值，只比较相近时间区间的数据。和之前一 
样， Hhubset 函数把符合条件的数据挑出来以构建一个新的数 据框： 

ufo.us<-subset(ufo.us, Date0ccurred>=as.Date( ,, l990-01-01")) 
nrow(ufo.us) 

#[l] 46347 

虽然这次移除的数据比我们之前清洗数据时丢弃的还要多，但是留下来可供分 析使用 
的样本还冇46 000多个。为了看清差异，我们重新对这个子集生成直方图，如图 1-6 所 
示。我们注意到这次样本差异更加显著。然后，我们开始组织数据，希望能回答我们的 
中心 问题： 美国境内 UFOP 击 记录如 果存在周期性规律，会是什么规律？为解答这个问 
题，我们首先要问 的是： 所谓“周期性”是什么？有很多方式可以把时间序列按照一定 
周期 聚合： 按周、按月、按季度、按年，等等。那么这里用哪种方式来聚合数据最合适 
呢？ DateOccuirred 列的数据是精确到天的，但是整个数据集的覆盖面上又存在大量的不 
-致。我们所需的聚合方式应该能让各个州的数据量分布相对均匀。此例中，按 year - 
month (年-月）的聚合方式是最佳选择。这种聚合方式也最能 M 答我们所提问题的核 
心，因为按年-月聚合比较容易看出周期性变化。 
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图 1-6: UFO 子集数据随时间变化的直方图 （1990 〜 2010) 

我们需要统计1990〜2010年每个州每年-月的 UFO 目击次数。首先，我们要在数据中新 
建一个列，这个列用于保存和当前数据中一样的年和月。用 strftime 函数把 n 期对象转 
换成一个 “ YYYY - MM ” 格式的字符串。我们照旧要设1 一个 format 参数来完成 转换： 

ufo.us$YearMonth<-strftime(ufo.us$DateOccurred, format="%Y-%m") 

需要注盘的足，我们没有用 transform 函数给数据框添加一个新列。相反，我们简单地 
引用了一个并+存在的列名， R 就自动增加了这个列。这两种给数据框添加新列的方法 
都有效，而我们会根据具体情况选择使用其中一种方法。接下来我们需要统计每个州在 
扭个年-月期间目击 UFO 的次数。这里 t 次用到 fddply 函数，此闲数是 plyr 库中的一 
员，而 plyr 库在处理数据方面非常有用。 

plyrrfl 数家族的作用有点像前几年流行起来的 map-reduce 风格的数据聚合工具。它们把 
数据按照一定方式分成不同的组，划分方式对每一条数据都足有意义的，然后对每个组 
进行计算丼返冋结果。在本案例中，我们要做的是用“州名缩写”和“年-月”这一新 
增加的列来给数据分组。数据按照这种方式分好组之后，可以对每个组进行数椐统 il 并 
把统计结果以-个新列的形式返冋。在这1，我们只是简单地用 nrow 函数按照行数来化 
简 ( reduce ) 每组数据： 


ooo l ooosooH.Iy 
3 2 2 11 

頦¥4|皿 
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sightings.counts<-ddply(ufo.us,.(USState,YearMonth), nrow) 
head(sightings.counts) 


USState 

YearMonth 

VI 

1 ak 

1990-01 

1 

2 ak 

1990-03 

1 

3 ak 

1990-05 

1 

4 ak 

1993-11 

1 

5 ak 

1994-11 

1 

6 ak 

1995-01 

1 


现在，我们得到了飪个州在每个“年-月”里的 UFOH 击次数。不过从调用 head 函数的 
结果来看，如果直接使用这份统计数据可能存在一些问题，因为其中有大量的值缺失 
了。比如，我们看到在阿拉斯加州 （ Alaska ) ，1990年的1月、3月、5月各有一次 H 击 id 
录， W 是没有2月和4月的记录。估计在这期间并没有 UFO 的目击记录，但是在数据集中 
的这些位置处也没有包含无 UFOB 击事件发生的记录，因此，我们得把这呰时间 i 己录加 


上，1^士次数就是0。 


我们需要一个復盖整个数据集的“年-月”向量。用这个向最可以检査哪些“年-月” 
已经存在于数据集中，如果不存在就补上，并把次数 设置为 0。为此我们要用 seq.Date 
闲数创建一个 H 期序列，然后把格式设定为数据框中的日期 格式： 


date.range<-seq.Date(from=as.Date(min(ufo.us$DateOccurred)), 

to=as.Date(max(ufo.us$DateOccurred)), by="month") 
date.strings<-strftime(date.range, "%Y-%m") 

冇 fdate.strings 这个新的向最，我们还需要新建一个包含所有年-月和州的数据框， 
然后用这个数据框去匹配 UFO 目击数据。我们依旧先用 lapply 函数创建列，再用 do.call 
函数将其转换成矩阵并域终转换成数 据框： 


states.dates<-lapply(us.states,function(s) cbind(s,date.strings)) 
states.dates<-data.frame(do.call(rbind,states.dates), stringsAsFactors=FALSE) 
head(states.dates) 


s 

date.strings 

1 

ak 

1990-01 

2 

ak 

1990-02 

3 

ak 

1990-03 

4 

ak 

1990-04 

5 

ak 

1990-05 

6 

ak 

1990-06 


现在，数据框 states.dates 包含了每一年、每个月和每个州所有组合所对应的所有 H 
Ai 己录。请注意，现在已经有广阿拉斯加州 （ Alaska ) 在1990年2月和3月的记录了。要 
给 UFO 0 击记录数据中的缺失值补上0,我们还需要把这个新数据框和原来的数据框合 
并。为此，需要用到 merge 函数，给这个函数输人两个有序数据框，然后它将数据框中 
相间的列合并。在我们的案例中，两个数据框分別是按照州名的字母顺序以及年-月的 
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时间顺序排序的。还要告诉函数将数据框中的哪些列进行合并，这就得给参数 by . x 和# 
数 by . y 指定每个数据框中对应的列名。最后，把参数 all 设置为 TRUE , 以告诉函数要把没 
匹配上的数据也包含进来并填充为 NA 。 以下 VI 列中的值为 NA 的记录即为没有 UFO 目击数 
据的 记录： 

all.sightings<-merge(states.dates, 
sightings.counts, 
by.x=c(_s","date.strings M ), 
by.y=c( M USState","YearMonth H ),all=TRUE) 
head(all.sightings) 


S 

date.strings 

VI 

ak 

1990-01 

1 

ak 

1990-02 

NA 

ak 

1990-03 

1 

ak 

1990-04 

NA 

ak 

1990-05 

1 

ak 

1990-06 

NA 


数据聚合的最后一步只是一些简单的修修补补。首先，我们要把 all . sightings 数据框 
的列名改成有意义的名称。方法和本案例一开始的改列名一样。接下来，要把 NA 值改为 
0,这里.又要用到 is . na 函数。最后要把 YeairMonth 和 State 列的数据转换为合适的类型。 
用前面创建的 date . range 向最和 rep 函数创建一个和 date . range —模一样的向 ft , 并把 
年-月字符串转换为 Date 对象。再强调一次，把日期保存成 Date 对象要比字符串好，因 
为前者可以用数学方法进行比较，而后者却不容易办到。同样，州名缩写最好用分类变 ft 
表示而不用字符串，因此将其转换为 factor 类型。下-•章会详细讲解 factor 及其他 R 数据 
类型： 

names(all.sightings)<-c("State","YearMonth","Sightings") 
all.sightings$Sightings[is.na(all.sightings$Sightings)]<-0 
all.sightings$YearMonth<-as.Date(rep(date.range,length(us.states))) 
all.sightings$State<-as.factor(toupper(all.sightingsSState)) 

现在，要用可视化方法分析数据了！ 

分析数据 

对于这份数据，我们只用可视化的方式回答前面提出的核心问题。在本书的其余部分， 
我们会结合数值分析和可视化分析，但山于本案例仅用作介绍 R 编程的核心范例，因此 
只需要用可视化分析即可。和之前的直方图可视化不同的是，这里我们要更为深入地使 
用 ggplot 2 程序包来明明白白地构建一个个的图层。按照这种方式，我们就可以构建这样 
一个可视化 结果： 它可以直接回答每个州 UFO 目击记录随时间变化的周期性规律问题， 
而且看上去也吏加专业。 
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下面的例子一次性构建好了所有的可视化结果，接 F 来将分別介绍其中每个图层的 
意义： 

state.plot <- ggplot(all.sightings, aes(x = YearMonth,y = Sightings)) + 
geom_line(aes(color = "darkblue")) + 
facet_wrap(~State, nrow = 10, ncol = 5) + 
theme_bw() + 

scale_color_manual(values = c( H darkblue" = "darkblue"), legend = FALSE) + 
scale x_date(breaks = "10 years") + 
xlab (: Time") + 

ylab (” Number of Sightings") + 

opts(title = "Number of UFO sightings by Month-Year and U.S. State (1990-2010)") 
ggsave(plot = state.plot, filename = file .path ("images", "ufosightings. pdf"), 
width = 14, height = 8.5) 

依照惯例，第一步还是用一个数据框作为第一个参数来创建一个 ggplot 对象。这里我们 
用到了前面所创建的数据框 all . sightings 。 在这里，照样为 f 绘图的美观，先要创建 
一个阁层， x 轴是 YearMonth 列， y 轴是 Sightings 数据。然后，为了表现各州的周期性 
变化，我们给每一个州绘制一幅曲线图。这样就方便观察每个州 UFOB 击数随时间变 
化的峰 ffi 、 平缓区、波动区。为此，我们要用到 geomJLine 函数，并将 color 的值设置为 
“ darkblue ” （深蓝色）以便让图形更显眼。 

通过整个例子我们看到 UFO 目击数据相当大，覆盖 f 相当长一段时期内美国所有州的 
记录。有鉴于此，我们需要设计一种方法，将可视化结果进行拆分，从而既能观察到毎 
个州的数据，乂能比较不同州之间的数据。如果我们把所有数据绘制在一个图板中， 
那很难观察到差别。为了确认这种方式的确不可行，将上面代码块的前两行中的 
color =" darkblue __ 替换为 color = State ， 并在控制台 输入〉 print ( state . plot ) ,然后运 
行。更好的方法是把每个州的数据单独绘制图形，并将图形在网格中按顺序放好，这样 
易于进行比较。 

为 r 创建出一个分块绘制的图形，我们用到 facet _ wrap 函数，并指明图形面板的构造使 
用了变最 State ， 它是一个 factor 类型，即分类变量。我们也要明确定义网格的行列数， 
这个比较容易，因为我们已经知道了一共有50个不同的图形。 

ggplot 2 程序包有很多不同的图形绘制主题。默认的绘制主题就是我们在第一个绘制例 
子中用 到的： 灰色背景、深灰色网格线。严格来讲，这只是个人喜好问题，但是在这里 
我们倾向用白色背景，因为这样可以在可视化结果中 E 容姑肴到数据之间的不同之处。 
我们添加了 theme _ bw 层，这个图层会用白色背詨和黑色网格线绘制图形。在操作 ggplot 2 
更熟练之后，我们推#你多尝试不同的绘制主题，然后找到自己最钟爱的一个。 


译 注丨： 原书中为第一行，实际上系一行是无法成功运行的。 
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其余图层的创建只是为了锦上添花，让可视化结果在视觉和感觉上都 更专业 一些。虽然 
无人对此珩求，但正是这些细节让绘制的可视化数据更贴近专业性 rfri 非业余。 scale _ 
color manual 函数用来指明字符串 “ darkblue ” 相当于网贞安全色 “ darkblue ” 。 虽然这 
样看上太有些重复、多余，何这正是 ggpl 0 t 2 的设计核心，它需要明确定义诸如颜色这 
样的细节。事实 h ， ggplot 2 倾向于用颜色来区别不同的数据类型或分类，因此它偏向 
子用 factor 类型来指明颜色。在前面的案例中，我们明确将颜色定义成了一个字符串类 
型，因此还要用 scale _ color _ manual 函数定义这个字符串的值。 

我们同样用 scale _ x _ date 函数指明可视化结果中主要的网格线。因为这份数据时间跨度 
是20年，所以要将其间隔设 S 为5年，然后，将四位数格式的年份作为坐标系的刻度标 
签。接行用 xlab 和 ylab 函数分別将 x 轴的名称定为 Time (H 杰时 间）， y 轴的名称设置为 
Number of Sightings (目击次 数）。 最后，用 opts 函数给整幅图陚予一个标题。 opts 函数 
还有很多的选项可设置，在后面的章节中我们也会用到其中一些，但是还有更多的功能 
本书没有涉及。 

所有图层都已经完成，现在用 ggsave 函数把结果渲染成图像并分析数据。 

分析之后，可以发现很多有趣的现象（见图 1-7) 。我们看到加利福尼亚州 
( California ) 和华盛顿州 （ Washington ) 的 UFO 目击次数明显多于其他各州。而这两 
个州之间也有一些有趣的区别，加利福尼亚州 UFO 目击次数在时间分布 t 比较随机，但 
在1995年之后又稳步增长，然而华盛顿州的 UFO 目击次数随时间的周期性变化则始终如 
一， 自1995年开始，其曲线的波峥和波谷都比较有规律。 

我们也观察到，许多州的 UFO 冃 * 次数都出现过突增情况。例如，亚利桑那州 
( Arizona ) ,佛罗里达州 （ Florida ) 、伊利诺伊州 ( Illinois ) 以及蒙大拿州 
( Montana ) 在1997年出现过次数突增，密歇根州 （ Michigan ) 、俄亥俄州 （ Ohio ) 以 
及俄勒 M 州 ( Oregon ) 在1999年末出现过相似的突增情况。但是在这些州中，只有密歇 
根州 （ Michigan ) 和俄亥俄州 （ Ohio ) 在地理上邻近。如果我们不相信这些是天外来客 
造访的结果，那有没有其他可能的解释呢？兴许美国人在世纪之交对天空很聱觉，常常 
仰望天空，因此才有了比以前多的错误冃击记录。 

然 Ifii , 如果你赞同外太空访客真的经常造访地球这种说法，的确有证据可以激发你想继 
续探究的好奇心。实际上，通过对地区聚类，也能得到 i 正据发现在美国许多州都有令人 
称奇的、稳定的周期性目击记录。这些目击 记录似 乎真的包含了一些有意义的模式。 
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图 1-7: 美国各州每年-月 UFO 目击次数（1990~2010年) 
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深入学习 R 的参考书目 

学习完这个入门案例绝不能说明我们已经把这门语言完全介绍给大家了。我们只是用这 
个案例介绍了一些 R 中加载、清洗、组织以及分析数据所用到的模式。在接下来的其他 
章节里，我们不仅会多次重复用到其中的许多函数、处理过程，我们还会介绍一些在这 
个案例里还没涉及的知识。在继续学习之前，对干那些希望获得更多实践机会以增强对 
R 熟悉程度的读者而言，有很多很棒的学习资源可供参考。这些资源大体上可以分为参 
考书、文献以及网上资源，如表 1-3 所示。 


在第2章我们将介绍探索性数据分析。本章的案例包含了较多的数据探索，但是我们处 
理得比较简单快速。下一章我们会史加慎重地对待数据探索的过程。 

表 1-3: R 参考资源 


书名 

作者 

引用 

简介 

文献参考资源 




《Data Manipulation 
with R 》 

Phil Spector 

[ Spe 08] 

对此前涉及的数据处理问题有深 
入的回顾与探讨，对此前未涉及 
的一些 技术也有介绍 

《R in a Nutshell )) 

Joseph Adler 

[ AdllO ] 

详细探讨 R 中所有基本函数。这 
本书采用了 R 手册的形式并加入 
| 了很多实际案例 

《Introduction to 
Scientific Programming 

and Simulation 

Using R » 

Owen Jones , 

Robert Mail - 

lardet 和 Andrew 

Robinson 

[ JMR 09] 

和其他的 R 入门文献不同，这本 
书首先专注于语言本身，然后才 
设计了模拟实践环节 

《Data Analysis 

Using Regression 

and Multilevel / 

Hierarchical Models 》 

Andrew Gelman 

和 Jennifer Hill 

[ GH 06] 

这本书侧重于统计分析，但是所 
有例子都使用 R ， 它是相当不错 
的一份学习语言和方法的资源 

« ggplot 2: Elegant 
Graphics for Data 
Analysis 》 

Hadley Wickham 

[ Wic 09] 

用 ggplot 2 可视化数据的专门手 
!册 
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表 1-3: R 参考资源（续) 


书名 

作者 

引用 

简介 

网上参考资源 




《An Introduction to R » 

Bill Venables 和 

David Smith 

http://cran.r- 

project.org/ 

doc/manuals/ 

R- intro.html 

源自 R 核心团队，是一份对 R 语言 
广泛的、时时更新的入门资料 

《The R Inferno 》 

Patrick Burns 

http://lib ^tat. 

cmu.edu/S/ 

Spoetry/Tutor/ 
R—inferno.pdf 

一份很不错的 R 入门资料，适合 
资深程序员阅读。其摘要一语中 
的： “如果你正在使用 R ， 而且 
感觉生不如死，那么这份资料就 
是来拯救你的。” 

《R for Programmers )) 

Norman Matloff 

http .//heather. 

cs.ucdavis.edu/ 

〜 matloffIRI 

R Prog.pdf 

和 《The R Inferno 》 比较类似， 
这份资料也面向其他语言的资深 
程序员 

“The Split - Apply - 
Combine Strategy 
for Data Analysis ” 

Hadley Wickham 

http://www. 

jstatsoft.org/ 

v40/i01/paper 

很不错的入门资料，来自 plyr 程 
序包的作者，在 plyr 的情景中用 
很多例子介绍了 map - reduce 模式 

“R Data Analysis 
Examples ” 

UCLA Academic 

Technology 

Services 

h —■ _ _ _ _j 

http://www xits. 

ucla.edu/stat/r/ 

dae/default .htm 

一份“罗塞塔石碑”式的入门读 
物，面向的是在诸如 SAS、SPSS 
以及 Stata 等其他统计语言编程平 
台上富有经验的人 
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数据分析 


分析与验证 

在数据处理方面，一个屡试不爽的方法就是：把任务清晰地分解成分析和验证两步。 
把数据处理分为分析和验证由著名的 John Tukeyh 首先提出，他强调要为实际数据分析 
设计简单的工具。在 John Tukey 看来，数据分析这一步要做的就是用摘要表 （summary 
table ) 和基本可视化方法从数据中寻找隐含的模式。本 t 揭示如何用 R 中的基本方法来 
建立数据的摘要表，然后再讲解怎样从这个表中看出门道。之后，将列举 R 中一些用千 
可视化数据的工具和方法，同时，还会简要介绍基本可视化模式。 

在开始第一次数据集分析之旅前，我们得提醒，一个真实存在的危险在时时窥伺 你：你 
找到的模式也许并不存在。人类的大脑天生就能发现宇宙中的模式，甚至在不太可能 
出现模式的地方也能发现。看一眼白云，眨眼间就能发现云的形状，这跟知道多少统 I 十 
学知识无关。很多人都深信自己可以在普通的字里行间，比如莎翁的戏剧，发现隐藏的 
信息。因为人类很容易发现一些经不起仔细推敲的模式，所以就不能只有数据分析这- 
步，必须还要有验证过程。可以这样来看待数据验证：数据分析阶段的4视化结果杂 
乱一有时甚至是毫无章法，这种情况让我们处理起来有些吃力，需要厘清思路，此时 
数据验证就会发挥作用。 

数据验证通常有两种方法： 


注1: 同样也发明了 bit (位） 这个词。 
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• 如果你认为自己在一个新的数据集上发现了模式，那就用另一批数据来测试这个模 
式的正规模型 

• 利用槪韦论来测试你在原始数据集中发现的模式是否只是巧合 g#- 2 。 

相比数据分析，因为数据验证对数学水平要求较高，所以本章只涉及数据的分析方法。 
也就是说在具体的案例屮我们只关注数据的数值摘要 (numeric summary) 和一些标准 
的可视化方法。我们讲到的数值摘要就是一些基本的统计 项目： 均值 （mean ) 和众数 
( mode ) 、百分位数 ( percentile ) 和中位数 （ median ) 、标准差 (standard deviation ) 
和右差 （ variance) 。我们要用到的可视化工具也是最基本的，你可能在统计学入门课 
程上已经学 过了： 直方图、核密度估计以及散点图。这些简单的可视化方法可能一度得 
不到重视，但是我们会让你相信，仅用这些基本的方法也能从数据中挖掘出有用的信 
息。本书后面的章节才会涉及许多较髙深的技术，但是，要训练数据分析的直觉，最好 
就是用简黾的方法去操作数据。 

什么是数据 

在介绍数据分析的基本方法之前，我们需要对“数据”这个槪念统一认识。对“数据” 
这个槪念所有可能的定义可以用一整书来论述，因为对任何所谓的“数据集”你郎可能 
有一堆®要的问题要问。例如，你可能经常想知道你手中的数据是如何产生的，你也想 
知道这些数据能否代表真正要研究的数据总体。通过研究亚马逊印第安人婚史，你可能 
已经掌捤了关于他们社会结构的很多知识，但是能否从中得到一些适用于其他文明的知 
I只却不得而知。对数据进行解释需要对数据来源有一定的了解。通常，唯一能区別因果 
关系和相关关系的方法就是要知道数据由何 而来： 是从实验中得到的，还是因没有实验 
数据而直接观察记录而来的。 

虽然这都是些有趣的问题，而且我们也希望你终有一天能够具备这些知识，但是在本 
书中我们完全不会涉及数据采集。本韋先假定数据分析这个微妙的哲学问题与预测问题 
完全尤关，后者我们会用机器学习技术来解决。出于实用性考虑，我们要在本书余下内 
容中统一采用以 K 定义： “数据集”无非是一张充满数字和字符串的大表，表中毎一行 
是现实 tit 界中的单个观测记录，并 a 每一列是观测记录的一个域性。如果你很熟悉数据 
库，那么我们对数据的这个定义在直觉上应该符合你所熟悉的数据库表结构。如果你还 
担心你的数据集可能还不仅是单张表，那么我们先假定你已经用过 R 中的 merge、SQL 中 
的 JOIN 系列操作或者我们此前提到的其他工具，创建了类似单张表的数据集。 


译注丨：即交又验证。 

译注2:即假设检验。 

注2:你若感兴趣，我们推苒阅读 Juden Pearl 的 《 Causality》 （因果） [Pea09】 9 
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我们称这个定义为“数据方块” （data as rectangle ) 模型。虽然这个观点大大简化了， 
m 是却可以在数据分析时非常形象地帮助我们想出许多好主意，我们希望它》『以1 上许多 
原本抽象的概念变得具体一些。“数据方坱”模型还有另一个作用：它让我们可以自由 
地徜徉干数据库设计的思维和纯数学思维之间。如果你还在为不熟悉矩阵而发愁，大可 
不必，本书通篇，你都可以把矩阵看成是一个二维数组，即一张大表。只要我们一直想 
象自己处理的是一个矩形的数组，我们就能使用很多强大的数学工具而不用关心其中具 
体的数学运算是如何执行的。例如，尽管我们所要研究的每一项技术都可以看做矩阵乘 
法 N 题，无论是标准线性回归模型还是现代矩阵分解技术，其中现代矩阵分解技术&近 
WNetflix 奖而声名鹊起，但是只在第9章才简单地介绍了矩阵的乘法。 

闪为我们把数据当做方块、表、矩阵，所以会交替使用这几个词，恳请读者朋友耐心 
些。当我们谈起数据时无论用的是哪个词，都请你牢记，它都表示类似表 2-1 的形式。 

表 2-1: 本书作者 


姓名 

年龄 

Drew Conway 

28 

John Myles White 

29 


由 F 数据由矩形组成，因此我们可以轻松地把运算操作通过绘图的方式表示出来。一份 
数据的数值摘要就是把表中的所有行精简为只有几个数字——数据集的每一列常常就精 
简为一个数字。图 2-1 是这类型数值摘要的例子。 



图 2-1: 将每一列摘要成一个数字 

与数值摘要相对的是另一种可视化摘要方法，它把数据集中所有数据的某一列槪括成- 
张图。单列可视化摘要的例子如图 2-2 所示。 
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单列可视化摘要 ： Mxl — *1 x 1 



I 

T 


图 2-2: 将一列摘要成一张图 

除 f 分析单列的方法之外，还有很多方法用于分析数据集中多列之间的关系。例如，计 
算两列的相关性，可以把表中任意两列转换成一个数字，这个数字表征了这两列之间关 
系的强度，如图2_3所示。 


相关性 分析： Mx 2 - ►ixl 


1 

1 

3 

0 

5 

0 

2 

0 


Mx 2 


图 2-3: 相 关性： 将两列摘要成一个数字 
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还有 K 他史为深人的方法。如果你觉得数据中存在很多冗余，那么你可能还需要减少其 
中的列数。将数据中的很多列变成儿列甚至一列的做法称为降维，对此将在第8章 I 羊细 
讲解。图 2-4 列举了一个例子说明降维要达到的目的。 


相关性 分析： MxN-^Mxl 


H 37.5 


-47.5 


42.5 


-32.5 


Mxl 


■ 

■ 

n 





■ 






MxN 


图 2-4: 降维： 将多列摘要成一列 

如图 2-1 〜图 2-4 这四个图所示，摘要统计和降维是截然不同的两个 方向： 摘要统计要传 
达的是所有数据在某一列（某个域性）上的特点如 M ; 降维要做的是把数据集中所有列 
(厲性）转换成少数几列，得到的列数据对毎一行来说都是唯一的。分析数据时，这两 
种方法都可能有用，因为它们都可以将海量数据变得一目了然。 

推断数据的类型 

在你要对新数据集进行下一步操作之前，首先要弄清楚这个表中的每一列所代表的含 
义。有人喜欢把这称作数据字典，就是说你可以在这里给数据集中每一列数据都存放一 
条简洁易懂的描述信息。例如，表 2-2 所示的是一个没有标 签的餃据集： 


表 2-2: 无标签数据 


參# • 

• • • 

• • • 

丫 

73.847017017515 

I 241.893563180437 

“0” 

58.9107320370127 

! •■ ___ 1 

102.088326367840 


在没有任何提示信息的倩况下，真的很难知道表中的数字表示什么含义。事实上，首先 
要搞清楚的是每一列的数据类型：第一 列似乎 仅包含字符0或1,但它真的是字符串吗？ 
在第1章 UFO 的例子中，我们首先给数据集每一列打上了标签。当我们面对一份没有标 
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签的数据集时，我们可能会用到 R 中的一些类型判断函数。三个最重要的类型判断函数 
如表 2-3 所示： 


表 2-3: R 的类型判断函数 


R 函数 

简介 

is.numeric 

输入向量是数字则返回 TRUE ， 数字包括整数和浮 点数； 否则返回 FALSE 

is.character 

输入向置是字符串则返回 TRUE ， R 中并没有单字符数据类型；否则返回 
FALSE 

is.factor 

输入向量是因子 （ factor ) 的某个值时返回 TRUE , 因子在 R 中用于表示 
分类信息；如果你用过 SQL 中的枚举类型，那么可以把因子看成类似的 
类型。它在内部隐藏的表示方式和语义上都与字符串向量有 区别： R 中 
大多数统计函数的操作对象都是数值向量或因子向量，而不是字符串向 
量。输入不是因子的某个值时返回 FALSE 


知道每一列的基本数据类型可能对于我们进行下一步操作非常重要，因为单个 R 函数常 
常 W 为输入数据的类型不同而进行不同的操作。在使用某些 R 内置函数之前，当前数据 
集中存储的这些0和1字符需要转换成数字， m 垃当使用另外一些 R 内腎函数时，它们又 
会转换成因子类型。从某种程度上来说，这种在不同数据类型之间来回转换的做法是机 
器学习中处理分类时司空见惯的做法。许多真正充当标签或起分类作用的变最都以数学 
方式编码成数字0和1。可以把这些数字想象成布 尔值： 0表示正常电子邮件，1表示垃圾 
电 f 邮件。这是用0和1对一个对象的定性属性进行描述的一种方法，这种方法在机器学 
习和统计学中叫做虚拟变董编码 （dummy coding ) 。虚拟编码系统和 R 中的因 f 还是有 
区别的，后者是采用文字标签来表达对象的定性厲性。 


警告： R 中的 因了类 兜可以当做标签，但是这些签在后台实际上还是编码为数 值型： 当程序员读 
取标签时，这些数动地映射为一个字符串索引数组中对应的字符串标签。冈为于 R 在后 
台采用的是数值编码，所以你异想天开地把 R 因+的标签转换成数值 " r 能会产生奇怪的结 
粜，原闪是你得到的数值可能由你自己的编码方案产生，而非原来与 R 闪子的标签关联的数 
值。 


表 2-4 〜表 2-6 所示的是同样的数据，但是采用了三种不同的编码方案。 
表 2-4: 因子编码 


MessagelD 

IsSpam 

1 

yes 

2 

u ” 

no 
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表 2-5: 虚拟变疆编码 


MessagelD 

IsSpam 

1 

1 

2 

0 


表 2-6: 物理学家的编码 


MessagelD 

IsSpam 

1 

1 

2 

-l 


在表 2-4 中， IsSpam 就直接当做 R 中的因子处理，这样是一种表示定性区别的方法。而 
在实际中它既有可能以因子类型载入，也有可能以字符串类型栽人，这取决于你所用 
的载入函数（详情请参照第1章中对参数 stringsAsFactors 的介绍）。每令到一份新数 
据时，你都要先决定怎么用 R 处理每一列，再决定是以因子类型还是以字符串类型加载 
其值。 


注意： 如果你不确定到底该以何种类型加栽时，最好的方法是先以字 符串* 型加载，之后根据需 
要再转换成因子类犁。 


在表 2-5 中， IsSpam 仍然是一个定性槪念，但是却以数字形式表示了布尔型的区别： I 表 
示 IsSpam 是 true ， 而0表示 IsSpam 是 false 。 实际 i :， 很多机器学习算法都要求定性数据是 
这种编码方式。例如， R 中默认用于逻辑回归和分类算法的函数 glm 就假定变量是虚拟变 
量，这些将会在第3章讲到。 

最后，表 2-6 展示了对相同定性槪念进行数值编码的另一种方式。在这种编码系统中，人 
们用+ 1和-1，而不用1和0。这种对定性槪念编码的风格很受物理学家青睐。当你看过 
的机器学习书籍够多， ft 终会遇到这种风格。但是本书会完全摒弃这种风格，因为在变 
董的不同表示方式间来回切换会导致无谓的混淆。 

推断数据的含义 

尽管你已经搞清楚了每一列的数据类型，但是对其含义可能仍然不甚了解。确定一张无 
标签的数字表到底在描述什么比大家想象的要困难得多。我们再看看之前提到的表，见 
表 2-7: 
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表 2-7: 无标签数据 


• 馨❿ 


• • • 


73.847017017515 

241.893563180437 

“0” 

58.9107320370127 

102.088326367840 


假如我们告诉你以下这些 信息： a ) 每一行代表一个人， b ) 第一列是一个虚拟变 ft , 表 
示这个人是男性（值为 1) 还是女性（值为 0) ; c ) 第二列是每个人的身高，以英寸为 
中.位； d ) 第三列是每个人的体重，以磅为单位。知道这些之后，你再来看这张表，是 
否觉得豁然开朗？把这些数字放在适当的上下文之中，它们瞬间就变得有意义了，而 H 
这也让你对这些数字所描述的对象有了一定的想法。 

但是，遗憾的是，有时候你得不到这些解释性信息。遇到这种情况，我们能告诉你的方 
法就只有 一个： 用人类的直觉，再辅以大 M 的 Google 搜索。不过，在査看了这类数值 
摘要表或《了视化摘要图之后，这两种摘要表中每一列的含义不明确，你的 ffi 觉会大幅改 
善，这也算是因祸得福。 


数值摘要表 


要弄清楚一份新数据的意义，敁好的方法之一就是计算所有列的数值摘要。 R 很适合完 
成这个操作。如果数据中只有一个列向景， summary 函数会产生出一些值，这些 值的盘 
义再明白不过了，你应该首先看 一看： 


data.file <- file.path( 'data', 'Ol_heights_weights_genders.csv') 
heights.weights <- read.csv(data.file, header = TRUE, sep =',') 
heights <- with(heights.weights. Height) 
summary(heights) 

#Min. 1st Qu. Median Mean 3rd Qu. Max. 

# 54.26 63.51 66.32 66.37 69.17 79.00 

对-个数值向量调用 R 中的 summary 函数之后就会得到上述例子中这些数值 结果： 

1. 向釐中的最小值 

2. 第一个四分位数（也称作第25个百分位数，即大干25%的数据中最小的那个) 

3. 中位数（也称作第50个百分位数） 

4. 均值 

5. 第3个四分位数（也称作第75个百分位数） 

6. 最大值 


数据分析丨43 





如果你想从数据中快速地得到一份数值摘要，这些值基本上就够 f 。 还缺少的值足标准 
差，本章稍后会定义一份数值摘要表。在接下来的内容里，我们会教大家怎样单独计算 
summary 函数所产生的每一个数值，并告诉大家它们都有什么意义。 


均值、中位数、众数 


K 分均值和中位数是所有统计学入门课程中最乏味的内容之一。的确需要一些时间才能 
更加熟悉这些槪念，但是当你真正处理数据时，我们相信你还是需要将二者区分开来。 
考虑到更好地让读者学到知识，我们试图通过两种不同的方式深化并强调这两个术语的 
意义。第一，如何通过算法方式计算均值和中位数。对大多数黑客来说，用代码表达想 
法比用数学符号更加自然，所以我们认为，自己写函数来计算均值和中位数，这样可能 
会1卜.你更加透彻地理解这两个统计学槪念的定义公式。第二，在本章末尾还会通过数据 
的直方图和密度图来揭示两者的区别。 


计算均值相当简单。在 R 中，一般用 mean 函数计算均值。当然，把均值放在一个黑盒子 
函数里面计算不太能直观地体会到均值的含义，因此我们白己实现 mean 函数，命名为 
my . mean 。 因为相关槪念在 R 中已有其他函数可以 计算： sum 和 length ， 所以仅需一行 R 
代码。 


my.mean <- function(x) { 
return(sum(x) / length(x)) 

} 

就这一行代码，均值的含义就已 明了： 只需把向量中的值求和，再除以长度。想必你已 
经知道，这个函数用于产生向景 x 中所有数的平均数。均值太容易计算了，闪为它和列 
表中数字的排序毫无关系。 

中位数就刚好 相反： 它完全依赖于列表元素的排序。在 R 中，一般用 median 函数计®中 
位数，但是我们要实现我们自己的版本，称之为 my . median : 


my.median <- function(x) { 
sorted.x <- sort(x) 

if (length(x) %% 2 == 0) 

{ 

indices <- c(length(x) / 2, length(x) / 2 + l) 
return(mean(sorted.x[indices])) 

} 

else 

{ 

index <- ceiling(length(x) / 2) 
return(sorted.x[index]) 
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只看代码行数就知道计算中位数比计算均值要复杂一些。第一步，对向 M 排序，因为中 
位数本质上是有序向最中间的那个数。这也是中位数称为第50个百分位数、第二个四 
分位数的原因。 一曰 .把向最排好序，就可以顺理成章地计算任何一个百分位数或四分位 
数，只需根据向 M ： 长度从某处将列表拆分成两段即可。要计算第25个百分位数（即第一 
个四分位数），只需把列表按照长度拆分并取前四分之一即可。 

以长度为依据的不规范定义存在一个问题，那就是当数据长度是偶数时此定义就行不 
通。如果没有一个数明显地处干数据集中间，你需要为此专门设计一个计算方法。在 t 
述例 f 的代码中，我们专门对这种长度为偶数的情况进行了 处理： 若列表长度为偶数， 
则在数据集中间有两个数一这两个数所在位置相当于列表长度为奇数的情况下的中位 
数一对这两个数求均值即是中位数。 

为了解释得史为清楚，下面举一些简笮的例子，第一个例子的中位数是中间两个数的均 
值，另一个例子的中位数就是中间那 个数： 

my.vector <- c(0, 100) 
my.vector 
# [1] 0 100 
mean(my.vector) 

#[1] 50 

median(my.vector) 

#[1] 50 

my.vector <- c(0, 0, 100) 
mean(my.vector) 

#[l] B3.333BB 
median(my.vector) 

#[ 1 ] 0 

冋到原来的身髙和体 t 数据集，计算身高的均值和中位数。顺便检验一下代码是否 
正确： 

my.mean(heights) 

#[l] 66.36756 
my.median(heights) 

#[l] 66.31807 

mean(heights) - my.mean(heights) 

#[ 1】0 

median(heights) - my.median(heights) 

#[ 1 ] 0 

在这个案例中，均值和中位数非常接近。我们稍后会简单解释为什么这份数据的均值和 
中位数本就应该是接近的。 

介绍了以 I ：两个重要的统计数值，你可能奇怪为什么还不介绍众数。其中一个原 因是： 
众数不像均值和中位数那样总是可以用我们处理过的那些向景来简单定义。因为它不易 
自动化计算，所以 R 中并没有计算数值向最众数的内置函数。 
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注意： 对任意向录定义众数是比较困难的，因为若要用数值来定义众数就要求向最中的数字重 U 
出现。 m 是当向录中的数值是任意浮点数时，不太可能任意值都会在向量中重4 {出现 。因 
此，众数在许多种数据集 t 仅有可视化定义。 


总之，如果你仍不确定众数的数学含义或其理论意义，你就假定它是在数据集中出现次 
数最多的那个数。 

分位数 

前面已经说过，中位数就是出现在数据集的50%那个位置的数。为了对数据范围有更深 
入的认识，你可能想知道数据中最小的那个数是什么。这就是数据集的最小值，这可以 
用 min 函数 计谇： 


min(heights) 

#[1] 54.26313 

而数据集中 最髙 /最人的那个数则可以用 maxil •算: 


max(heights) 

#[1] 78.99874 

两者联合确定了数据的范围: 


c(min(heights), max(heights)) 
#[1] 54.26313 78.99874 
range(heights) 

#[1] 54.26313 78.99874 


对此可以从另一个角度进行理解：在数据集里 ， min (最小值）指的是0%的数据都小干 
它的数字 ， max (最大值）指的是100%的数据都比它小的数字。由此可以自然地联想 
到： 如何找出数据集中 N % 的都小干它的数？答案是使用 R 中的 quantile (分 位数） 闲 
数。第 N 个分位数就表示数据集中有 N % 的数据小于它。 

默认情况下， quantile 会告诉你数据集的0%、25%、50%、75%以及100%位置处的 
数据： 


quantile(heights) 

# 0% 25% 50% 75% 100% 

#54.26313 63.50562 66.31807 69.17426 78.99874 

要得到其他位置的分位数，需要给 quantile 的另一个参数 probs 传入截取 位置: 

quantile(heights, probs = seq(0, 1, by = 0.20)) 

# 0 % 20 % 40 % 60 % 80 % 100 % 

#54.26313 62.85901 65.19422 67.43537 69.81162 78.99874 
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这串.用 seq 函数在 0 〜 I 之间产牛 . f 一个步长为 0.2 的序 列: 


seq(0, 1, by * 0.20) 

#[l] 0.0 0.2 0.4 0.6 0.8 1.0 

分位数虽然在统计学传统教程中不如均值和中位数那样受重视，但其作用不容忽视。如 
果你在运营一个客服部，并记录用户反馈的响应时间，那么可能你关心前99%顾客情况 
的收益远大干只关心中位数个数顿客情况。如果数据形状比较奇怪，只关心平均数个数 
的顾客情况就£不能反映整体情况了。 


标准差和方差 

从某种怠义上说，均值与中位数都是一组数的“中 N 的 数”： 中位数，顿名思义，就是 
一组数据的中心位罝，而均值实际上则是列表中所有数值加权之后的中心。 

不过，对干一份数据而言，它的集中趋势可能只是你关心的一个方面。了解通常数据与 
期望值有多大偏移也 M 样 t 要，这称为数据的散布。定义数据的范围有很多方式，比如 
前 l & i 提到的 range 函数： 数据范围由 min (最小） fft 和 max (最大）值决定。彳 R 足要合理地 
定义散布程度，还需要以下两个 因紊： 

• 散布程度撺盖的应该只足大多数数椐，而作全部数据。 

• 散布程度不应该完全由数据的两个极端值决定，这两个极值通常只是异常值而无法 
代表数据集整体情况。 

min (敁小值）和 max (最大值）通常都是异常值，因此用它们来定义散布程度相当不稳 
定。换个角度思考，假设我们保持这两个极值不变而改变其余数据，那会怎样？实际上 
你可以随意地去除其余数据而仍然保持最大值和最小值不变。也就是说，不论你是有 
200万个还是两个数据点，建立在敁大值 和敁小值堪础 t 的定义都只依赖 亍数据 集的两 
个数据点。因为我们不能相信任何对大部分数据点都不敏感的摘要，所以要用更好的方 
式来定义数据集散布程度。 

对数据集进行数值摘要已有很多可行的方法。例如，可以计算包含50%数据的范围是什 
么，围绕中位数的数是什么。用 R 很容易统计出这些 信息： 

c(quantile(heights, probs = 0.25), quantile(heights, probs = 0.75)) 

或者可把范闱扩大，找一个覆盖95%数据的 范围： 

c(quantile(heights, probs = 0.025), quantile(heights, probs = 0.975)) 

这些的确可以很好地衡量数据的散布程度。当你用到£髙深的统计学方法时，此类范围 
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定义方法比比皆是。但是历史上的统计学家们却用过一个不太一样的散布程度衡最方 
法： 该方法明确地定义为方差 （ variance ) 。大致来说，这个定义是为了衡量数据集电 
面任意数值与均值的平均偏离程度。作为一名黑客，我们要写一个自己的方差计算函 
数，而不是写方差的数学计算 公式： 

my.var <- function(x) { 
m <- mean(x) 

return(sum((x - m) A 2) / length(x)) 

} 

和之前一样，把这个函数与 R 的 var 函数作比较，以确保代码 正确： 


my.var(heights) - var(heights) 


实现的函数和 R 内置函数 var 的执行结果有偏差。从理论上，可以找一些理由来解 释：即 
使不考虑浮点运算的精度问题，仍然还会有偏差。事实上，另一个重要原因是函数的实 
现方式与 R 内1函 数所用 的方法 不同： 在正规的方差定义中，除数件不是 向址的 长度， 
而是向最的长度减1。之所以这样做，是因为从经验数据估算的方差会由于一些细微原 
因比其真值要略小。要修补这个误差，假设数据集有 n 个数据点，你会白然地想到用比 
例因子 n /( n - l ) 与方差估计值相乘，由此更新后的 my . var 函数 实现： 

my.var <- function(x) { 
m <- mean(x) 

return(sum((x - m) A 2) / (length(x) - l)) 

} 

my.var(heights) - var(heights) 

用这个版本的 my . var 函数计箅方差，可以和 R 内置方差估算函数的结果完全一致。上文 
关干浮点运算有偏差的观点在我们进行长向最运算时很常见，但是本例中的向最 K : 度还 
不涉及此问题。 

用方差衡 M 数据集散布程度合乎情理，但是它的值几乎比数据集中任何一个值都要大很 
多。用一个很直接的方法就可以看到这个现象，看看与均值相差正负单位方差之间的 
数值： 


c(mean(heights) - var(heights), mean(heights) + var(heights)) 
#[l] 51.56409 81.17103 

这个范闱实际上比源数据集的范围要大： 

c(mean(heights) - var(heights), mean(heights) + var(heights)) 

#[l] 51.56409 81.17103 

range(heights) 

#[l] 54.26313 78.99874 
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之所以 R 前的数 据范围 超出原始数据范围，是因为定义方差的方式是衡董列表中数据与 
均伉的平方距离，而没有对其进行开方。为使一切都回归原始的范围，需要用标准差 
(standard deviation ) 代替方差，即方差的平 方根： 

my.sd <- function(x) { 
return(sqrt(my.var(x))) 

} 

在进行下一步操作之前，最好检验一下你的实现和 R 中的内置函数是否一致，此函数在 R 
中叫做 sd : 


my.sd(heights) - sd(heights) 


W 为观在汁算的值在正确的范围内，所以有必要#新估算数据范围，看看偏离均值单位 
标准差的 数值： 


c(mean(heights) - sd(heights), mean(heights) + sd(heights)) 

林 [l] 62.52003 70.21509 

range(heights) 

#[1] 54.26313 78.99874 

既然用的是申.位标准差，而不是单位方差，那么得到的数据范围就轻松落入极差 
( range ) 范围内。要对数据内部集中程度有个基本认识，方法之一便是对比基于标准差 
的范围和 基干分 位数的 范围： 


c(mean(heights) - sd(heights), mean(heights) + sd(heights)) 
tf [l] 62.52003 70.21509 

c(quantile(heights, probs = 0.25), quantile(heights, probs = 0.75)) 

»25% 75% 

#63.50562 69.17426 

用 quantile 函数可以看到，大致有50%的数据落在距离均值正负一个标准差之间的范围之 
内。这是个典型的数据特征，对这份身髙数据来说更是如此。但是要最终精确地刻_数 
据的形状，还需要对数据进行可视化操作，并定义一些正式用语来描述数据的形状。 


可视化分析数据 

计算 数据的数值摘要的意义毋庸置疑，这毕竟是经典统计学的核心。但是对于很多人来 
说，数字并不能有效地传递出他们想看到的信息。要发现数据中的模式有一个吏有效的 
方法，那就是使数据可视化。本节会介绍两个最简单的可视化数据分析 方法： 一种是单 
列可视化，它侧重数据的形状；另一种是双列可视化，它侧重两列之间的关系。除了介 
绍数倨可视化丁具外，我们还将介绍几种标准数据形状，当你拿到新数据时就可以试着 
与这些标准形状比对一下。这些理想的形状，又称为分布，是统计学家们研究了很多年 
的标准模式。如果你发现自己的数据符合这些形状之一，那么通常可以对数据有个人致 
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推断： 数据源如何，有何大致 厲性， 等等。甚至当你的数据只是近似符合这些形状，也 
可以用它们作为基本分布形状，叠加出更复杂也更加逼近数据的形状。 
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言归正传，接下来开始对之前一直在操作的穿卨和体重数据进行可视化。这实际上是一 
份相当复杂的数据，我们多次用它阐释了本书中提出的理念。人们用到的最典型的中.列 
可视化方法就是直方图。该方法皆先把数据集分放到若 T 个区间里，然后统计每个区间 
里数据的条数。如图 2-5 所示，以1英寸为区间宽度创建直方图来吋视化身高数据， R 代 
码 如下： 

library('ggplot2') 

data.file <- file.path( 'data', 'Ol_heights_weights_genders.csv') 
heights.weights <- read.csv(data.file, header = TRUE, sep =',') 
ggplot(heights.weights, aes(x = Height)) + geom_histogram(binwidth = l) 


图 2-5: 10 000 人的身高直方图 
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你马上就会 发现： 数据呈钟形。大部分数据处于中间，与均值和中位数接近。佴这只是 
因所选的直方图类型而造成的假象。检验是否存在假象的方法之一就是尝试不同的区 f 曰！ 
宽度。在你使用直方图的时候要始终牢记 一点： 区间宽度是你强加给数据的一个外部结 
构， m 足它却冋时揭示了数据的内部结构。在构建直 方图的 时候，如果设置了错误的参 
数，那么你发现的模式（即使真实存在）也会轻易地消失。用5英才的区间宽度重新构 
建直方图，如图 2-6 所示，代码 如下： 






图 2-6: 10 000人的身高直方图 


当采用一个较大的区间宽度值时，数据的很多结构就不见了。虽然还有个顶峰，但是之 
前看到的对称性已经几乎不存在了。这叫做过平滑 （ oversmoothing ) ，与之相反的问题 
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则称为欠平滑 （ undersmoothing ) ，也是很危险的。再次调整区间宽度值，这一次是一 
个非常小 的值： 0.00〗英寸，如图 2-7 所示： 


ggplot(heights.weights, aes(x = Height)) + geom_histogram(binwidth = 0.001) 

这一次使数据欠平滑了，因为采用了一个相当小的区间宽度值。因为数据量很大，所以 
从这个直方图中依然可以发现一些有价值的东西，但如果是一份只有100个数据点的数 
据集，你却用了这种区间宽度，基本上一文不值。 


图 2-7: 10 000人的身高直方图 

调整区间宽度值是一件枯燥的事，而且即便是最佳的直方图，在我们看来其锯齿状也很 
明显，因此我们倾向于选择一种和直方图类似的方法来可视化，即核密度估计 (Kernel 
Density Estimate , KDE ) 或者叫做密度曲线图 (density plot ) 。尽管密度曲线图也无法 
规避 ft 方图令人纠结的欠平滑和过平滑问题，但是我们首先考虑的是美观一密度曲线 
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图尤其在大数据集 h 更接近我们所期望的理论形状。此外，密度曲线图也有一些理论优 
势： 揭示数据潜在的形状，密度曲线阁需要的数据点比直方 ra 要少。而且，牛.成密度曲 
线图和 A : 方图一样简单。如图 2-8 所示，构建了身高数据的第一个密度曲 线图： 


ggplot(heights.weights, aes(x = Height)) + geom_density() 



图 2-8: 10 000 人身高数据密度曲线图 


密度曲线图的乎滑性有助干我们发现数据的模式类型，而这很难在直方图中发现。从密 
度曲线图中看到，峰值处竟然有些平坦，不禁令人生疑。因为期望的标准钟形曲线在峰 
值处不是平坦的，这我们很想知道是不是在数据集的峰值处还隐藏着更多的结构。当 
你觉得吋能有些结构缺失的时候，有一个方法可以试一试：根据其中任意一个定性变歐 
将曲线分开。现在，根据数据集当屮的性別将曲线分离成两部分。在图 2-9 中，构建一 
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个密度曲线 W ， 它由两个密度曲线叠加而成，但已经通过颜色标明了其所代表的不同 
性别: 


ggplot(heights.weights, aes(x = Height, fill = Gender)) + geom density() 
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图 2-9: 与性别相关的10 000人身高数据密度曲线图 

在这张 m 暇我们一下就发现 r 此前忽视的一个隐藏 模式： 我们 m 然没有看到一个钟形曲 
线，却右到了两个部分重#的钟形曲线。这并+意外，因为男性和女性的平均身高是 
不一样的。我们可能希望两个性别的体 ® 数据曲线也是与此相同的钟形曲线结构。如图 
2-10 所示，给数据集的体*数据构建一个新的曲线图。 

我们再-次看到广两个钟形曲线结构的混合。在本书余下内容黾，还会比较 i 羊细地探讨 
这种混合的钟形曲线， m 是有必要现在就给这种结构命 个名： 混合模型，它是由两个标 
准分布混合而形成的一个非标准分布。 
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图 2-10: 与性别相关的10 000人体重数据密度曲线图 


3然，我们需要把标准分布讲得吏清楚嗖，这样才能清晰 明白上 那句活的意义，因此 
从敁理想的数据分布 入手： 正态分布，也称为高斯分布或钟形曲线。正态分布的例子有 
很多，上面的混合分布就是由两个正态分布组合而成的，这里的鉍一个正态分布叫做 • 
个分片 （ facet ) 。在图 2-11 中，把此前展示的密度曲线分片，以便读者能肴到两个单独 
的钟形曲线。在 R 中，可以用下面的代码实现这种 分片： 

ggplot(heights.weights, aes(x = Weight, fill = Gender)) + geom_density() + 
facet_grid(Gender ~ .) 

分片完成后，两个钟形曲线清晰吋见，-个是中心在 137.5 磅的女性钟形曲线阁，另一个 
是中心在 187.5 磅的男性钟形曲线图。这种类型的钟形曲线就足正态分布。这个形状 I •分 
常见，以至于我们下意识觉得“正态”才是数据的“正常形态”。 m 这是不对的，我们 
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关 心的很多事物，从人们的年收人到股价毎 H 的涨跌，用正态分布来描述都不是特別适 
合。 m 是，正态分布在统计学的数学理论中相当電要，因此相比其他大多数分布，关干 
正态分布的研究更透彻些。 






图 2-11: 10 000人体重数据密度曲线图，以性别分片（单位 ：膀) 
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图 2-12: 均值为0,方差为1的正态分布 

在这些 ftl 中，有两个变 ft : 分布的均值，它决定钟形曲线的中心所在；分布的方差，它 
决定钟形曲线的宽度。可以通过下面的代码得到不同的钟形曲线图，调整其中的参数， 
ft 到最终的钟形曲线看起来很舒服。调整时修改其中 m 和 s 的值 即可： 


ggplot(data.frame(X = rnorm(lOOOOO, m, s ))， aes(x * X)) + geom_density() 

用这段代码生成的曲线的基本形状是一样的；改变111和 8 只是移动其中心或者伸缩其宽 
度。读者从图 2-12 〜图 2-14 中可以看到，曲线的具体形状在改变，但是其幣体轮廓并没 
有变化。要注意的是，钟形并不是判断数据是否为正态分布的允分条件，因为还存在其 
他钟形分布，稍后会介绍其中一种。利用正态分布，可以定义一些关于数据形状的定性 
概念，所以接下来 U ： 我们快速了解一些术语。 
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图 2-13: 均值为1,方差为3的正态分布 


首先，重新 W 论到现在都还被我们冷落在一旁的众数。之前提到过，连续数值列表的众 
数不好定义，因为没有数值《复出现。但足，连续数值的众数却能用可视化的方法解 
释 清楚： 当构违一条密度曲线时，数据的众数就在钟形的峰值处。举个例子，如图 2-15 
所示。 
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图 2-14: 均值为0,方差为5的正态分布 


用可视化方法估计众数，密度曲 线阉比 直方阁要容易得多，这也是我们推荐使叫密度曲 
线阁的原因所在。当你看到密度曲线图，众数的意义一目了然，然 rfiift 接面对数字的时 
候，儿乎看不到它背后的含义。 

既然已经定义了众数，就应该指出正态分布所定义的众数有一个 特点： 它只有一个 
众数， 间时 也是数据的均值和中位数。作为对比例子，图 2-16 所示的图有两个众数， 
图 2-17 所示的图有三个众数。 
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图 2-15: 标出众数的正态分布 

与谈到数据的众数个数时，会用到以下 术语： 只有一个众数的分布叫单峰 
( unimodal ) | 有两个众数的分布叫双峰 ( bimodal ) ；有两个以上众数的分布叫多昨 
( multimodal ) 0 

还吋以从-个定性的区別来划分出两类数据，那就是对称分布 （ symmetric ) 数据和偏态 
分布 ( skewed ) 数据。图 2-18 和图 2-19 所示分别是对称分布和偏态分布。 
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图 2-16: 两个正态分布混合，两个众数都已标出 


对称分布的特点是：图 2-18 中众数的左右两边形状一样。正态分布就有这个特点，该特 
点说明观察到小于众数的数椐和大于众数的数据的可能性是一样的。对比之下，图 2-19 
所示图形向右偏斜，说明在众数右侧观察到极值的可能性要大干其左侧，这种图形称为 
伽玛分布 (gamma distribution ) 0 
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图 2-17: 三个正态分布混合，三个众数都已标出 


锒后我们要根据另一个定性的区別来划分出两类 数据： 窄尾分布 （thin-tailed ) 数据和 
重尾分布 ( heavy-tailed) 数据。稍后我们会用一张标准的 M 来说明两者之间的区別，但 
足这个区别用语言更容易表述。 窄尾分 布所产生的值通常都在均值附近，99%的吋能性 
都是这样。比如，正态分布在99%的情况下所产生的数据偏离均值都不会超过三个标准 

差。相比之卩，另一个钟形分布-柯两分布 （Cauchy distribution) 大约只有90%的值 

落在三个标准差范围内。距离均值越远，这两个分布的特点越 不同： 正态分布几乎不可 
能产生出距离均值有六个标准差的值，然而柯西分布仍有5%的可能性。 
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图 2-20 和图 2-2 1的对比就是窄14分 布和® M 分布的典型区別。 


set.seed ⑴ 

normal.values <- rnorm(250, 0, l) 
cauchy.values <- rcauchy(250, 0, l) 
range(normal.values) 
range(cauchy.values) 
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图 2-19: 偏态分布 

把结 果圃出 来可以看得更清楚 一些： 

ggplot(data.frame(X = normal.values), aes(x = X)) + geom_density() 
ggplot(data.frame(X = cauchy.values), aes(x = X)) + geom_density() 

本节就正态分布及柯西分布展开的讨论到此为 出， 接下来我们来对正态分布的本质特件_ 
做个总结：它是牟峰的、对称的分布，也足钟形的窄尾分布。柯两分布也足单峰的、对 
称的分布，也是钟形曲线，却是重尾分布。 

本节是关干密度曲线图的，在讨论 r 正态分布之后，我们再来看看两幅规范的图像，从 
而为本节阃上 句号： 一个是有点偏斜的伽玛分布，另一个是非常偏斜的指数分布。这两 
个分布在后面内容中都会用到，因为它们在实际的数据中都出现了。 m 有必要现在就开 
始讲解，以便更加直观地了解偏态分布。 
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分布类型 
—柯西分布 
正态分布 


I 







图120:重尾的柯西分布和窄尾的正态分布 

首先从伽玛分布入手。它很灵活，推荐你 Q 己动手操作一下。下面是示例 代码: 


gamma.values <- rgamma( 100000, 1, 0.001) 

ggplot(data.frame(X * gamma.values), aes(x = X)) + geom_density() 

伽玛分布的数据绘图结果见图 2-22。 

从图 2-22 可以看出，伽玛分布是向右倾斜的，这意味荇中位数和均值有时差距很大。在 
图 2-23 中，我们把人们玩苹果手机 ( iPhone ) 游戏《屋顶狂奔》 ( Canabalt ) 的得分绘制 
成了密度曲线图。 


这份 W 实的数据与理论 h 的伽玛分布非常相似。我打赌很多其他游戏得分数据的 曲线阁 
也与此相似， 因此， 要想分析游戏数据，需要有一份特別有用的理论工具。 
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图 2-21: 分片 绘图： 重尾的柯西分布和窄尾的正态分布 


还有一点需要 i 己住 的是： 伽玛分布只有正值。在本书后面讲解的随机最优化方法就需要 
一个全部正值的分布。 

最后一个要讲解的分布足衍数分布 （exponential distribution ) ，它是典型的偏态分布。 
图 2-24 是一份满足指数分布的数据。 

因为指数分布的众数出现在0值处，所以它特别像是把钟形曲线切掉一半后留 F 的正值 
部分。在满足下列条件的情况下常常会出现指数 分布： 数据集中频数最髙的是0,并且 
只有非负值出现。例如，企业呼叫中心常常发现两次收到呼叫请求的间隔时间看上去符 
合指数分布。 
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当你对数据越来越熟悉，对统计学家们所研究的理论分布学习得£深入，你会对这些分 
布更加熟悉一最重要的原 因是： 这些分布会反复出现。到目前为止，你从本节学到的 
是一些简单的定性术语，可以用于向别人描述 数据： 单峰分布和多峰分布；对称分布和 
偏态分布 I 窄尾分布和重尾分布。 



图 2-22: 偏态分布 
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图 123: 《屋顶狂奔》游戏的得分 


列相关的可视化 

到冃前为止，我们只是介绍了数据集中单列处理方法的一些思路。这些方法很有 价值： 
如果在数据集中发现了相似形状，那会 It 你得到很多信息。发现一个正态分布就说明均 
坑 和中位数是相等的，也说明在大部分时候你不会观察到偏离均值超过三个准差的数 
值。 仪仅学 习了一个数据可视化结果，我们就能得到这么多信息。 

m 是，目前我们所回顾的知识你都能在传统统计学课程中学到，和你热切希望投入其中 
的机器学习应用还是有所不同。要进行真正的机器学习，我们需要发现数据集中多个数 
据列之间的关系，以此搞清数据所隐含的意义，而且能够预测未来的一些东西。在本书 
中我们要接触到的预测问题有如下儿个： 
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• 根据一个人身高预测其体 重: 


• 根据电子邮件文本预测一封邮件是不是垃圾邮件, 


• 颅测一个人是不是想买此前从未向其推荐过的一件产品。 


这些问题仍然可以分成 两类： 回归问题，要预测的是数值，比如体重，已知的是一组其 
他数值，比如身高，分类问题，就是给数据贴上标签，比如“垃圾”，已知的是一组数 
值，比如类似“伟哥” （ viagra ) 和“西力士” （ cialis ) 这些垃圾词汇的词频。本书余 
I 、‘内鞞中很多地方都会介绍回归和分类的方法，在这里我们希望读者谨记两种数据《1视 
化方法。 


图 2-24: 指数分布 
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第一个就是老套的回归图。在回归图中，我们要画出数据的散点图，观察是否有隐含的 
形状来体现数据集两列之间的关系。回到之前的身高体重数据集上，接下来给身高和体 
® 绘制一散点图。 

如果你对散点图还不是很熟悉，那么你必须知道散点 图是一 幅二维图像，其中一维相当 
干变最 X ，另一 维相当于变董 y 。 要绘制散点图，还需要用到 ggplot 。 

ggplot(heights.weights, aes(x = Height, y = Weight)) + geom_point() 


所绘制的散点图如图 2 - 2 5 所示。 



图 2-25: 身高和体重散点图 

从阁 2-25 中可以明显地看到身高和体重之间存在某种关系模 式： 较卨的人会较重。这和 
直觉明显符合，后面内容将会介绍用干发现这类模式的通用方法。 
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为了更仔细地研究这个模式，用 ggplot 2 屮的平滑方法把所#到的这个线性模火形象地描 
绘 出来： 

ggplot ( heights . weights , aes(x = Height，y = Weight )) + geom _ point () + geom _ smooth () 

如图 2 26 所示，这是一个桴加了平 滑校式 的新散点图。 



图 2-26: 带平滑线性似合的身高和体重散点图 

geom _ smooth 闲数<以根据人们的身商 ftS 测其体甫。在本例中， fiS 测的趋势是一 条问单 
的曲线,如图 2-26 中的浅灰色标注。曲线周围阴影区是体重预测值的范围，当数据量增 
加之后，这样的猜测会更准，阴影 R 也会缩小。因为我们已经用到了所冇的数椐，所以 
要体会这种效果最好的方法就足反 Kilifii 行之： 移除一些数据，然 )5 观察其中的模式如 
何变得越来越不明显。实验的结果见图2-27~图2-2\ 
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ggplot(heights•weights[1 : 20,] p aes(x = Height, y = Weight)) + geom point() +geom_smooth() 
ggplot(heights.weights[ 1 ： 200,], aes(x = Height, y = Weight)) + geoin_point() +geofn_smooth() 
ggplot(heights.weights[1 : 2000, ] , aes(x = Height, y = Weight)) + geom_point() +geom_smooth() 

回恕一下，如果用一个数据列去预测另一个数据列，且要颅测的是数值，那么就称为 
回归。相反，若要预测的是标签，就称为分类。而对于分类，你应该知道，和阉 2-30 差 
不多。 


图 2-27: 20份数据的身高和体重散点图 

在这张图中，用所有数据绘出了每个人的身高和体重，也用颜色标注了每个数据点的性 
别。从而清楚地看到数据集有两个不同的群体。要用 ggplot 2 来绘制这幅图，需要运行 
下面的 代码： 

ggplot(heights.weights, aes(x = Height, y = Weight, color * Gender)) + geom 一 point() 
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图 2-28: 200份数据的身高和体重散点图 

这张图是标准的分类图。在分类图中，用数据生成散点阉，然后用第三列给 + N 标签的 
数据点标}:颜色。对于身髙和体重数据，加入的第三列是数据中每个人的性別。再看这 
幅阁，似乎可以只用身高 和体重 来猜这个人的性别。分类要做的事就是利用其他数据来 
预测诸如性别这样的分类变量，第3章会比较洋细地讲解分类的算法。而现在，我们 U 
简单看看运行一个标准的分类算法之后的结果，如图 2-31 所示。 


数据分析 


73 





120 - 




I 

60 



图 2-29: 2000 份数据的身高和体重散点图 


我们所闽的直线有一个富有想象力的名字-“分类超平面” (separating 

hyperplane ) 。之所以称为“分类 超甲面 ”，是闪为它把数据分成 f 两部 分： 给定一个 
人的身髙和体《，数据点落 在超平 面的-•侧，你会猜测这个人是女性，而在另一侧 
你会猜测他是男性。这是一个相当好的猜测方法，就这份数据集 而言， 92%的情况下你 
会猜对。我们认为这个效果还不错，因为我们使用的分类模型非常简单一它仅仅用了 
穿高和体重两个特征而已。在实的分类任务中，我们常常要用几十个、几百个其至儿 
千个特征来颅测类别。 K 不过这份数据刚好特別容钻上手，我们才选了它来演示。 


译洼3:此处的数据点指的是由身高和体重确定的点。 
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本章即将结束，为/让你对 F —章充满期待，我们把实现刚才颅测的 R 代码展示出来。 
根据观察，根本不用什么代码，结果就出人 意料： 

heights.weights <- transform(heights.weights, Male = ifelse( 

Gender == 'Male', 1, 0)) 

logit.model <- glm(Male 〜 Height + Weight, data = heights.weights, 
family = binomial(link = 'logit.)) 

ggplot(heights.weights, aes(x =Height, y = Weight, color = Gender)) + 
geom_point() + 

statabline(intercept = -coef(logit.model)[l]/coef(logit.model)[2], 
slope = -coef(logit.model)[3] / coef(logit.model)[2], 
geom = •abline',color = 'black') 

在第 3 章中，我们会倾囊相授如何用现成的机器学习方法来构建自己的分类器。 
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图 2-30: 2 000份数据的身高和体重散点图（用颜色标注性别) 
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第 3 章 

分类： 垃圾过滤 


非此 即彼： 二分类 

第2章末尾 tl 经简要介绍过一个关干分类的案例。我们用身高和体®来预测一个人是男 
性还是女性。在例图中，可以用一条线把数据分成两个 群体： 一个为“男性”群体 ，另 
一个为“女性”群体。这条线称为分类超平面，但是从现在起，我们将使用“决策边 
界” (decision boundary ) 这个术语，因为我们有时候会遇 h 无法仅用一条 ft 线来很好 
地完成分类的数据，比如，像图 3-1 所示的数据。 

该图可用于描述有患病风险的人和健康的人。在图 3-1 中两条黑色水平线之外的区域，我 
们颅测这些人有患病风险，但在两条水平线之间的人则健康状况良好。因此，这两条黑 
线便是我们的决策边界。假设阁 3-1 中的三角形代表健康人，圆阁代表患病的人。 

解决无法以一条直线作为决策边界的问题已有通用方法，这是机器学习的一大成就。本 
B 后面内容会专门介绍一种特别的方法，即核方法 （kernel trick ) ，它处理复杂决策边 
界效果不错，并且几乎不增加多余的计算成本。 

m 是，在我们开始学习如 H 在实践屮确定决策边界之前，要先回顾一些与分类相关的重 
要槪念。 

假定我们已有一批待学习的已标注分类样例。每个样例的构成 包括： 一个标签，也称为 
一个类別或类型；一系列用于描述样例的可测量变量。我们把这些可测董的变 _ tt 叫做特 
征或预测变釐 （ predictor ) 。比如，此前处理的身髙和体重数据就是我们用于猜测“男 
性”和“女性”标签的特征。 
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图 3-1: 用多个决策边界进行的分类 


分类的例子比比 皆是: 


• 根据给定的乳房 X 射线图，判断病人是否患有乳腺癌？ 

• 从血压测量结果能否判断病人患有髙血压？ 

• 从政治候选人的宣言能否判断他是共和党人还是民主党人？ 

• 判断上传到社交网络的照片中是否包含人脸？ 

• 《暴风雨 》 (The Tempest ) 是威廉•莎士比亚的作品还是弗朗西斯•培根的作品？ 

本章主要关注文本分类问题，这类问题要用到一系列方法，这些方法可以用来回答上述 
例子中的最后一个问题。而在案例中，要构建一个判定邮件是否是垃圾邮件的系统。 
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我们的原始数据来 SpamAssassin 的公开语料库， 可以在 http://spamassassin.apache.org/ 
pitbliccorpusf ^ M 卜‘栽。其屮一部分语料库已保存在本章的 H 录中，并且整个 
章节都会用到。在未处理阶段，纯文本格式的原始邮件内容就是特征。 

这样的原始文本给我们提出了第一个问题。我们需要把原始文本数据转换成一组特征， 
从而 n 了以用定最的方式来描述定性的概念。在本例中，具体做法就是采用0/1编码 策略： 
垃圾或非垃圾。比如，要 判定： “包含 HTML 标签的邮件是否更可能属于垃圾邮件？” 
要 N 答这个问题，就需要把电子邮件中的文本转换成数值。幸好 R 中已有通用的文本挖 
掘程 序包， 可以自动完成大部分这类工作。 

正 W 如此，人们在处理文本数据时通常都会提取一些有用的特征，而本章的重点就是培 
养你对这些特征的良觉。特征提取 (Feature generation ) 是现阶段机器学习研究领域中 
的一个承要课题，件乱还远没有达到可以用通用方法 Q 动完成的目标。冃前你最好把特 
征呑 做是机器学习屮的一个基本 冈汇， 完成的实际项目越多，你就越熟悉它。 


注意： 学习一门新语言中的 W 汇，有助 f 违立一种直觉，知道什么样的才能称其为 U ]。 同理，学 
>1人们已经用过的特征，有助于逮立一种直觉，知道什么特征以后可能会用到。 


根据以往经验，处理文本时所用到的最爱要的特征是间频 （word count ) 。如果我们 
认为 HTML 标签足表征电子邮件是不足垃圾邮件的重要指标，那么可以提取出诸如 
“ html ” 和 “ table ” 这样的标签，分別统计它们在垃圾邮件和非垃圾邮件两类文本中出 
现的频次。为 T 城示 这种方 法在 SpamAssassin 语料库中表现如何，我们已经提前统汁/ 
“ html ” 和 “ table ” 标签出现的频次，如表 3-1 所示。 


表 3-1: “垃圾” 

词的频次 


HTML 标签 

垃圾 

非垃圾 

html 

377 

9 

table 

1182 

43 


我们将数据集中的每一封电子邮件按照类型绘出了如图 3-2 所示的图。图 3-2 中并没有体 
现多少信息， 闪为太 多数据点重叠 f 。 当数据集中有一个或多个变量，而取值却大都相 
同时，就会经常出现这类问题。因为这个问题比较常见，所以有标准的图形化处理方 
法： 在绘图之前，给这些值增加随机噪声。这些噪声会把数据点“分开”，从而减少 
重彝数&。这种添加噪声的方法称为抖动 ( jittering ) ,这种方法用 ggplot 2 很容易实现 
(见图 3-3) 。 
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图 3-2: 根据邮件类型进行的 “ html ” 和 “ table ” 标签频次统计 

该图说明，我们通过统计 “ html ” 和 “ table ” 标签的频次来判定邮件是否为垃圾邮件的 
效果其实很一般。 


注意： 在本 茕的⑺ 文件夹 F 的文件屮，从第226行开始的命令用来生成阁 3-1 和 
图3-2。 


在实际操作中，除/这两个明显的特征词项之外，我们还可以使用更多的特征，从而实 
现更好的效果。事实上，在最终的分类器中，用到了几千个词项。尽管只用到了词频信 
息，但是我们仍然得到了相当准确的分类效果。在现实世界中，除了词频外，你可能想 
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川其他更多的特征，比如，伪造的头部信息、 1 P 地址以及黑名单等，但目前，只介绍文 
本分类的基础知识。 

在继续介绍文本分类之前，先 M 顾条件概率的一些基本槪念，并 W 论它们和文本分类之 
间的关系。 

漫谈条件概率 

文本分戈的核心是18世纪的条件槪率 （conditional probability ) 理论在20 lit 纪的应用。 
条件槪率就是在已知一个事件发生的前提下，另一个事件发生的槪率。比如，已知一个 
人学 生的 ㊁ 业是计算机科学，我们想知道这个学生足女生的槪串。这可以从调査结果中 
找到答案，根据美国国家科学基金会2005年的调査结果，计算机科学专业的本科生 U 有 
22%足女生 [ SR 08], 但是，整个理工科专业的本科生有51%是女生。所以，专业为计算 
机科学这个条件让这个学生是女生的概率从51%下降到了 22%。 

本章使用的文本分类算法叫 做朴素 贝叶斯分类器 （Naive Bayes classifier ) ，它通过搜索 
文本中的两类词来判断文本类型，这两类词分別 足： a ) 明显更可能在垃圾邮件中出现 
的 b ) 明显更可能在非垃圾邮件中出现的词。当一个词明显更可能出现在一种情景 
下 Ifii 非另一种时，它的出现就为判定一封新邮件是否是垃圾邮件提供了有力证据。逻辑 
t 很简中如果你在一封邮件中看到一个更经常出现在垃圾邮件中的词，那么它可以证 
明这封邮件总体来说是垃圾邮件，如果你在一封邮件中看到 I 午多更经常出现在垃圾邮件 
中的词，儿乎没找到经常出现在非垃圾邮件中的同，那么能够很人程度上证明这封邮件 
是垃圾邮件。 

敁终，文本分类器把上述直观感觉形式化为两个计 算量： a ) 假设电子邮件是垃圾邮 
汴，看到其具体内容的概率； b ) 假设电子邮件不是垃圾邮件，看到同样内容的槪串。 
如果一封邮件被当做垃圾 邮件， 我们更可能看到其内容，那么可以断定它是垃圾邮件。 


一封邮件，需要多高的可能性才值得贴上垃圾邮件的标签？这取决于另一类 信息： 一封 
垃圾邮件出现的基本槪韦。这个基本槪率信息就是通常所说的先验槪率 （ prior ) 。可以 
这样理解先验 槪串： 如果你在公园看到的大多数鸟都是鸭子，那么当你某天淸晨听见嘎 
嗖声，猜测那是只鸭子就相对保险。 m 是，如果你从来没在公园见过鸭子，那么你假定 
任何发出嘎嘎声的鸟都是鸭子就太过冒险 r 。 至于电子邮件，之所以引入先验槪串，是 
W 为大多数发送的电子邮件都是垃圾邮件，这说明当判定为垃圾的证据不太确凿时，也 
足以判定其为垃圾邮件。 

在下-节中，当我们写垃圾邮件文本分类器的时候会详细阐述以上这个逻辑。为了计算 
一封电子邮件的槪率，假设所有词之间的颊次统计相互独立。这种假设的正规说法叫做 
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统讣独立性。如果引入了这种假设，但不肯 定其正 确性，那么我们的模型就足朴紊的。 
因为我们还要用到电子邮件为垃圾邮件的基本槪率信息，所以这种模型也叫做贝叶斯 

模型-这主要是为了纪念首先阐释条件槪率的18世纪数学家 W 叶斯。综合以上两个 w 

素，我们的模型称为朴素贝叶斯分类器。 

试写第一个贝叶斯垃圾分类器 

在本章前面提到过，我们要用到 SpamAssassif ! 公开语料库来训练、测试分类器。这份 
数据由已标注的三类电子邮件 构成： 垃圾邮件 （ spam ) 、易识別的正常邮件 （easy 
ham ) 、+易识别的正常邮件 (hard ham ) ,你也能想到，与易识別的正常邮件相比， 
不易识别的正常邮件更难和垃圾邮件区分开。比如，不易识别的正常邮件的正文通常包 
含 HTML 标签。回顾一下，识別垃圾的简单方法之一就是统计此类 HTML 标签的数垃。 
为了£准确地找出不易识別的正常邮件，我们需要从更多的文本特征中引人更多的信 
息。为了抽取这些特征需要对电子邮件文件进行文本挖掘，这也迈出了构建分类器的第 
一步。 

这份原始电子邮件文件中的每一封都包含邮件久•部和正文两部分。一封典型的易识别的 
正常邮件可参照例3-1。你会注怠到这£5文本中有一些有用的特征。首先，邮件头部包含 
大 t 关干邮件来源的信息。实际上，受篇幅所限，我们只在例 3-1 里保留 r 一部分头部信 
息。尽管头部里还包含了很多有用的信息，但是我们在分类器中却不会用到头部信息。 
我们比较感兴趣的不是与信息传送相关的特征信息，而是如 M 通过邮件正文内容本 穿预 
测一封邮件的类別。这并不意味着头部或其他信息都完全没用，实脉上，所有成熟的现 
代垃圾过滤器都用到了邮件头部中包含的信息，比如，其中是否有部分疑似伪造的信 
息，邮件是否来自已知的垃圾邮件发送者，头部信息是否有字段缺失。 

因为我们只关心邮件正文内容，所以需要把邮件正文文本抽取出来。如果你分析过本例 
要用的电子邮件文件，你会发现邮件正文总是在文件中第一个空行后开始的。在例 : M 
中， “ Hello , have you seen and discussed this article and his approach ?” （你好，请问你 
看过并讨论过这篇文章及其所用的方法吗？）这句话就在第一个空行后直接出现。要开 
始构建分类器，第一步就要利用这个规律写一个 R 函数读取义件，并从中柚取邮件内容 
文本。 
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例 3-1: 典型的“易识别的正常邮件” 


Received: from usw-sf-list1-b.sourceforge.net ([10.3.1.13] 
helo=usw-sf-list 1 .sourceforge.net) by usw-sf-list 2 .sourceforge.net with 
esmtp (Exim 3.31-VA-mm2#1 (Debian)) id 17hsof-00042r-00;Thu / 

22 Aug 200207:20:05-0700 

Received: from vrvi.uptime.at ([62.116.87.11] helo=mail.uptime.at) by 
usw-sf-list 1 .sourceforge.net with esmtp (Exim 3.31-VA-mm2 #1 (Debian)) id 
17hsoM-OOOOGe-OOfor <spamassassin-devel@lists.sourceforge.net>; 

Thu, 22 Aug 2002 07:19:47-0700 

Received: from (192.168.0.4] (chello062178142216.4.14. vi«.surfer.at 
(62.178.142.2161) (authenticated bits=0) by mail.uptime.at (8.12.5/8.12.5) 
with ESMTP id g7MEI7Vp022036 for 

<spamassassin-devel@llsts.sourceforge.net>;Thu > 22 Aug 200216:18:07 
+0200 

From: David H=?IS0-8859-l ?B?9g==?=hn <dh@uptime.at> 

To: <spamassassin-devel@example-sourcefor 9 e.net> 

Message-Id: <B98ABFA4.1 F87%dh@uptime.at> 

MIME-Version: 1.0 
X-TrustediYES 
X-From-Laptop: YES 

Content-Type: text/plain; charset="US-ASCir , 

Content-Transfer-Encoding: 7bit 

X-Mailscanner: Nothing found, baby 

Subject: [SAdev] Interesting approach to Spam handling.. 

Senderspamassassin-devel-admin@example.sourceforge.net 

Errors-To: spamassassin-devel-ddmin^iexample.sourceforg€.net 

X-Beenthere: spamassassin-devel@example.sourceforge.net 

X-Mailman-Version: 2.0.9-sf.net 

Precedence: bulk 

List-Help: <mailto:spamassassin-devel-request@example.sourceforge.net?subject=help> 
List-Post: <mailto:spamassassin-devel@example.sourceforge.net> 

List-Subscribe: <https://example.sourceforge.net/lists/listinfo/spamassassin-devel>, 
<mailto:spamassassin-devel-request@lists.sourcefor 9 e.net?subject=subscribe> 

List-Id: SpamAssassin Developers <spdmassassin-devel.example.sourceforge.net> 
List-Unsubscribe: < https://example.sourceforge.net/lists/listinfo/spamassassin-devel>, 
<mailto:spamassassin-devel-requc5t@lists.sourceforge.net?subject=unsubscribe> 
List-Archive: <http://www.geocrawler.com/redir-sf.php3?list=spamassassin-devel> 
X-Original-Oate: Thu, 22 Aug 200216:19:48 +0200 
Date: Thu, 22 Aug 2002 16:19:48 +0200 

Hello, have you seen and discussed this article and his approach? 

Thank you 

http://www.paulgraham.comApam.html 
- "Hell, there are no rules here- we're trying to accomplish something." 

- Thomas Alva Edison 


This sf.net email is sponsored by: OSDN- Tired of that same old 
cell phone? Get a new here for FREE! 
https://www.inphoniccom/r.asp?r=sourceforge1&refcode1 =vs3390 


Spamassassin-devel mailing list 

Spamassassin-devel@lists.sourceforge.net 

https://lists.sourceforge.net/lists/llstinfo/spamassassin-deve! 


注意： 用空行分隔邮件头部和正文是协议规定的。可参考 RFC822W& 1 : http://tools.ietf.org/html/ 
rfc822 。 


译注丨： RFC822 规定了电子邮件的标准格式。 
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和其他案例一样，这里要做的第一件事就是加载要用的程序包。因为是文本分类，所以 
要用到 tm 程序包， tm 代表(文本挖掘）。一旦分类器构建完毕并测试通过， 
就要用到 ggplot 2 程序包来对结采进行可视化分析。还有一步很秉要的初 始化丄 怍就是 
为所有邮件数据文件设置路径变 tt 。 前面提到，有三类 邮件： 易识别的正常邮件、不姑 
U ! 別的 IE 常邮件以及垃圾邮件。在本例的数据文件夹 T ， 你会注意到每一类邮件都有两 
菸独立的文件。我们会用第-套文件来训练分类器，用第二套文件来测试分类器。 

library(tm) 

library(ggplot2) 

spam.path <- "data/spam" 
spam2.path <- "data/spam_2/" 
easyham.path <- "data/easyham/" 
easyham2.path <- M data/easy_ham_2/" 
hardham.path <- "data/hardham/" 
hardham2.path <• ” data/hard_ham_2/ w 

在加载完必需的程序包，设腎好路径变量后，我们可以开始将两种类型邮件转换成文本 
语料库了，目的是构建垃圾邮件和正常邮件的特征词项类别知识库。要完成这一步，需 
要先写一个函数，用它打开每-个文件，找到空行，并将该空行之后的文本返回为一个 
字符串向《：，这个向量只有一个元素，就是空行之后的所有文本拚接之后的字符串。 


get.msg <- function(path) { 

con <- file(path, open:"rt", encoding=”latinl") 
text <- readLines(con) 

# The message always begins after the first full line break 
msg <- text[seq(which(text== MM )[l]+l,length(text),l)] 
close(con) 

return(paste(msg, collapse="\n")) 

} 

Rig 言处理文件输入输出 ( I / O ) 的方式和许多其他编程语言很相似。此处所用函数接受 
字符出类型的文件路径，然后以 rt 模式打开文件，这里 rt 代表以文本形式读取 (read as 
text ) 。同时需要注意的是，这里的编码 （ encoding ) 指定为 latinl , 这是因为很多邮件 
包含非 ASCII 码字符，指定编码为 latinl 就可以读取这些文件。 readLines 函数会把所打 
开文件链接中的每一行文本返回为字符串向最的一个元素。一&读入了所有的文本行， 
就需要定位到第一个空行，然后抽取出其后的所有文本。有了字符串向景形式的邮件正 
文后，先关闭文件，然后用 paste 函数把这个向量拼接成一个单条文本元素，同时指定 
参数 collapse 为、 n "， 表示由换行符来分隔各个元素。 

要训练分类器，就要从所有垃圾邮件和正常邮件中得到邮件正文。方法之一就是创建一 
个向最保存所有邮件正文，从而使向最的每个元紊就是一封邮件的内容。最直接的 R 实 
现方式就足结合我们自己实现的函数 get . msg 并使用 apply 函数完成。 
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spam.docs <- dir(spam.path) 

spam.docs <- spam.docs[which(spam.docs!="cmds n )] 

all.spam <- sapply(spam.docs, 

function(p) get.msg(paste(spam.path,p,sep=""))) 

以垃圾邮件为例，先用 dir 函数得到下所有文件名列表。在这个路径下（以及其 
他所有保存邮件数据的路径下）都有一个 cm 心文件，这个文件包含一个很长的 UNIX 基 
本命今列表，用于在这些目录下移动文件。因为不希望把这些文件包含在训练数据 
中，所以忽略这些文件，只保留文件名中不包含 cmA 的文件。现在， spam . docs 就是一 
个字符向量，它包含所有用于训练分类器的垃圾邮件文件名。 

要得到垃圾邮件的文本向最，用到了 sapply 函数，它对每一个垃圾邮件文件名应用 get . 
msgrt 数，从而通过函数的返回值构建一个文本向最。 


注意： 请注意，我们需要给 sapply 函数传人一 个尤名 函数，目的是用 paste 函数把文件名和适当的 
路柃拚接 起来。 这在 R 中是很常见的做法。 


执行完这些命令后，可以用 head ( all . spam ) 来检査一下结果。你会发现每个向最元素的 
名称与文件名——对应。这就是 sapply 函数的优势之一。 

下一步是利用这个邮件向构建一个文本 iS 料库，这要用到 tm 程序包中提供的闲数 。一 
H 冇了语料库形式的文本，就以通过从邮件正文中抽取特征词项来构建垃圾邮件分类 
器的特征集。 tm 程序包有一个明 B . 的优势，那就是清洗、规整文本的繁重工作部在后台 
完成。用儿行 R 代码就能完成的任务，如果自己用较低级的语言来实现，则需要很多行 
的字符串处理代码才能完成。 

M ； 化垃圾邮件特征 is ] 项颊+的方法之一就是构造一个 i »> j 项-文档矩阼 (Term Document 
Matrix , TDM ) 。顾名思义， TDM 是一个 NxM 矩阵，矩阵的行对应在特定语料库的所 
有文杓中抽取的词项，矩阵的列对应该语料库中所有的文档。在这个矩阵中，一个 [ i , 
: j ] 位 R 的元尜表示词项 i 在文档 j 中出现的次数。 

和之前一样，定 义一个 简单的函数 get . tdm ， 该函数输人邮件的文本向1：，输出 TDM : 

get.tdm <- function(doc.vec) { 

doc.corpus <- Corpus(VectorSource(doc.vec)) 
control <• list(stopwords=TRUE, removePunctuation=TRUE, 
removeNumbers=TRUE, 
minDocFreq=2) 

doc.dtm <- TermDocumentMatrix(doc.corpus, control) 
return(doc.dtm) 

} 

spam.tdm <- get.tdm(all.spam) 
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tm 程序包提供 了若干 方法用于构建语料库 （ corpus 对象）。在这个案例中，因为要用邮 
汁-向景构建语料库，所以用到 rVectorSource 函数来构建 source 对象。要査看其他可用 
的数据源类型听# 2 ,可以在 R 控制台上输入? getSources 。 通常在使用 tm 程序包时，一旦 
加栽了来源文本，会将 corpus 函数与 VectorSource 函数配合使用，从而创建一个 corpus 
对象（语料库对象）。然而，在创逮一个 TDM 之前，我们需要告诉 tm 该如何清洗和规整 
文本。为此，要用到一个 control 变最，它是一个选项列表，用于设定如何提取文本。 

在这个案例中用到了四个选项。首先，设定 stopwords = TRUE ， 这个参数告诉 tm 在 
所有文本中移除488个最常见的英文停用词。要査看停用词列表，在 R 控制台上输入 
stopvvords () 0 接下来，参数 removePunctuation (移除标点符号）和 removeNumbers (移 
除数字）都设定为 TRUE ， 原因当然再明白不过，主要是为了减少与这些字符有关的哚 

卢-尤其因为许多文档都包含 HTML 标签。最后，设定 minDocFreq =2， 这确保只有那 

些在文本中出现次数大于1次的词才能最终出现在 TDM 的行中。 

现在，我们已经基本处理完毕垃圾邮件，可以开始构建分类器了。具体来说，首先可以 
用 TDM 来构建一套垃圾邮件的训练数据。要在 R 中实现这一0标，推荐方法是构建一个 
数据框来保存所有特征词项在垃圾邮件中的条件槪率。正如前面的计算机科学专业女生 
那个例子所做的一样，需要训练分类器，使之能在已知观测特征的前提下计算出邮件是 
垃圾的槪率。 

spam.matrix <- as.mdtrix(spam.tdm) 

spam.counts <- rowSums(spam.matrix) 

spam.df <- data.frame(cbind(names(spam.counts), 

as.numeric(spam.counts)),stringsAsFactors=FALSE) 
names(spam.df) <- c("term", M frequency") 
spam.df$frequency <- as.numeric(spam.df$frequency) 


spam.occurrence <- sapply(l:nrow(spam.matrix), 

function(i) {length(which(spam.matrix[i,] > 0))/ncol(spam.matrix)}) 
spam.density <- spam.df$frequency/sum(spam.df$frequency) 


spam.df <- transform(spam.df, density=spam.density, 
occurrence=spam.occurrence) 

为了构建这个数据框，首先要用 as . matrix 命令把 TDM 对象转换成 R 的标准矩阵。然后 
用 rowSums 命今创建一个向量，该向量包含每个特征在所有文档中的总频次。因为要用 
data . frame 函数把-个字符向量和一个数值向董结合在一起，所以默认情形 1、 R 会把这 
些向 tt 转换成常 RL 表达形式。颊次可能是字符形式，因此它会转换成因子类型，干是就 
要注意设定 stringsAsFactors = FALSE 。 接下来，需要处理一些琐事，包括修改列名，把 
频次数转换成数值向量。 


译注2:数採源类型是指构 ilcorpus 对象的参致类型 source 。 
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通过接下来的两个步骤，生成关键的训练数据。第一步，计算一个特定特征词项所出现 
的文档在所有文档中所占的比例。通过 sapply 把每一行的行号传人一个无名函数，该函 
数统计该行中值为正数的元素个数，然后除以 TDM 中列的总数——也就是除以垃圾邮件 
语料库中的文柙总数。第二步，统计整个语料库中每个词项的频次（我们汴+会使用这 
些颊次信息来分类，但是如果想知道某些词是否影响结果，对比颊次数相当有川。） 

最 G， 用 transform 函数把向最 spam.occurrence 和 spam.density 加人数据框中。现在， 
分类器的训练数据已经准备完毕！ 

现在，我们来检查一下，看看这份训练数据中哪些特征词项在垃圾邮件中指示性 敁明 
显。为此，我们按照 occurrence 列对 spam.df 进行排序，并看看前几条数据： 


head(spam.df[with(spam.df, order(-occurrence)),]) 



term frequency density 

occurrence 

2122 

html 

377 0.005665595 

0.338 

538 

body 

324 0.004869105 

0.298 

4313 

table 

1182 0.017763217 

0.284 

1435 

email 

661 0.009933576 

0.262 

1736 

font 

867 0.013029365 

0.262 

1942 

head 

254 0.003817138 

0.246 


我们之前反复提到， HTML 标签好像是垃圾邮件中最明显的文本特征。在训练数据 
中，超过30%的垃圾邮件包含标签 html， 以及其他常见的 HTML 相关标签，比如 body、 
table, font 以及 head。 请注意，这些 HTML 标签的颊次统计 （frequency 列）并非缺高。 
你町以自行把 h 面代码中的 -occurrence 替换为 -frequency 就知道结果 r。 从定义分类器 
的角度来说，这非常®要。如果采用 frequency (总词频）和紧随其后的 density (Uj 的槪 
率）作为训练数据，就会把某些类型的垃圾邮件权重调得过高——尤其是包含 table 标签 
的那些垃圾邮件。然而，我们知道并非所有的垃圾邮件正文都是用这种方式生成的。综 
上所述，较好的方 法是： 根据有多少邮件包含这个特征词项来定义一封邮件足垃圾邮件 
的条件槪率。 


既然已有了垃圾邮件的训练数据，就需要正常邮件的训练数据，从而让总体样本平衡。 
作为练习的一部分，只用易识别 的正常 邮件数据来构建训练数据。当然，也可以在其 
中包含不易识别的正常邮件，事实上，如果是为了打造一个真实的垃圾邮件自动识別系 
统，训练数据就应该包含那些不易识别的正常邮件。但就这个案例来说，仅用一批容易 
分类的语料库文档来训练有助于观察文本分类器的工作原理。 

构造正常邮件的训练数据和此前构建垃圾邮件训练数据的方法一模一样，所以就不再《 
复朽写那些命令了。和构造垃圾邮件训练数据唯一不同之处就是，只用 data/easy_ham 
文件夹里的前500封邮件数据。 
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你可能已经注意到，在这个文件夹下有2500封正常邮件。那么为什么我们要忽略五分之 
四的数据呢？在构建第一个分类器的过程中，假定每一封邮件是垃圾邮件或正常邮件的 
概率是相等的。因此，最好保证数据能反映假设，我们只有500封垃圾邮件数据，因此 
也把正常邮件限定在500封。 


注意： 如果想知道如何把正常邮件数 t 限定在500封，请査看本章代码文件乃 ./? 中第 
168行。 


构造好正常邮件的训练数据之后，我们可以像査看垃圾邮件训练数据一样进行査看，从 
而可以对比这两份 数据： 


head(easyham.df[with(easyham.df, order(-occurrence)),]) 



term 

frequency 

density 

occurrence 

3553 

yahoo 

185 

0.008712853 

0.180 

966 

dont 

141 

0.006640607 

0.090 

2343 people 

183 

0.008618660 

0.086 

1871 

linux 

159 

0.007488344 

0.084 

1876 

list 

103 

0.004850940 

0.078 

3240 

time 

91 

0.004285782 

0.064 


我们首先注意到，在正常邮件训练数据中，特征词项分布更稀疏。在文档中出现颊串最 
卨的 ip ] “ yahoo ” 也只在18%的文档中出现过，其他词都只在小于10%的文档中出现过， 
但是，垃圾邮件训练数据前几个词项均在大于24%的文档中出现过。我们可以想想，如 
何利用这种差异把垃圾邮件和正常邮件区分开。如果一封邮件仅含有一两个与垃圾邮件 
非常相关的词，就需要很多非垃圾词汇才能把它分类为正常邮件。定义两类训练集之 
后，接下来准备完成分类器并开始测试它！ 

定义分类器并用不易识别的正常邮件进行测试 

我们要定义的分类器是以一封邮件正文为输人，然后计算其是垃圾邮件或正常邮件的槪 
书。幸运的是，我们已经实现了大多数的函数并且已经生成了计算要用的数据。但是在 
开始之前，还有一个关键的难点必须考虑。 

我们需要决定如何处理新邮件中那些能在训练集中找到的特征词项，以及那些在训练集 
中找不到的词项（见图 3-3) 。为了计算一封邮件是垃圾邮件或正常邮件的槪率，需要找 
出待分类邮件和训练集共有的词项。然后，用这些特征的槪率计算这封邮件是训练集中 
对应类别的条件槪率，这很直接，但是当待分类邮件中的词项未在训练集中出现时，应 
该怎么办呢？ 
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邮件类型 

+易识 M 的正常件 
°垃《_件 


° 5 标签 html 的频次~ 


图 3-3: 按邮件类型绘制的特征 html 和 table 抖动频率图 

要计算一封邮件的条件槪率，我们的方式是计算各个特征词项在训练集中的槪率乘积。 
比如， HTML 标签 html 在垃圾邮件中出现的槪率是0.30， HTML 标签 table 在垃圾邮件中 
出现的槪率是0.10,那么可以说在垃圾邮件中同时看到这两个词项的概率是 0.30 x 0.10 = 
0.03。但是对于那些没在训练集中出现的词项来说，我们对它们在垃圾邮件和正常邮件 
中出现的概串一无所知。有一种可能的办法是假设它们在这些类别中出现的概韦是0, 
因为我们没有在训练集中观测到。然而，这种方法大错特错。首先，就因为没有观测 
到，我们就断定它们永远不会在所有邮件中出现，这也太无知了。再者，条件槪率是通 
过乘枳来计算的，假如我们把没在训练集中出现过的词项槪率赋值为0,学过小学数学 
都知道，大多数邮件的条件概率都会是0，因为一遇到未知的词项时都会把所有概率值 
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乘以0。这对我们的分类器而言，会造成灾难性的后果，因为很多甚至所有邮件作为垃 
圾或正常邮件的槪串都会被错误地计算为0。 

研究人 W 已经提出了许多很妙的办法来应付这个问题，比如依据某些分布给它们赋一 
个随机 槪率，或者用自然 语言处理 （Natural Language Processing ， NLP) 技术 估计一 
个词项在特定上下文中的“垃圾倾向”。我们的方法是简单地给这些没在训练集中出现 
的词项赋了，-个特別小的槪韦。实际上这也是在简单文本分类器中处理缺失特征的常见 
做法，而 R 也能很好地满足我们的要求。在这个案例中，我们把这个槪率默认设置为 
0.0001%,这对这份数据集来说已经足够小了。最后，因为假设每一封邮件是垃圾邮件 
和正常邮 件的町 能性相所以把毎一个类別的先验槪率都默认设置为50%。然而因为 
面还会涉及这个问题上来，所以我们实现广一个 classify . email 函数，如此一来，这 
个先验槪率就可变了。 


菁告： 对干末出现在训练集中的特征，我们所给的槪率值0.0001%也不是放之四海而皆准的。虽然 
适用十这个案例，俱是在其他情况 F 它可能太大或者太小，那么你所构逮的系统可能就完 
全没用了。 


classify.email <- function(path, training.df, prior=0.5, c=le-6) { 
msg <- get.msg(path) 
msg.tdm <- get.tdm(msg) 
msg.freq <- rowSums(as.matrix(msg.tdm)) 

# Find intersections of words 

msg.match <- intersect(names(msg.freq), training.df$term) 
if(length(msg.match) < 1) { 

return(prior*c A (length(msg.freq))) 

} 

else { 

match.probs<-training.df$occurrence[match(msg.match, training.df$term)] 
return(prior*prod(match.probs)*c A (length(msg.freq)-length(msg.match))) 


你会注意到，在 classify . email 函数中前三步和我们在训练阶段所做的事一样。我们也 
得用 get . msg 函数抽取出邮件正文，并用 get . tdm 将其转换成 TDM ， 最后用 rowSums 计兑 
特征词项的颊韦。接下来，我们要找到出现在邮件中的词项和出现在训练集中的词项的 
交集，如图 3-4 所示。为此，我们用到 intersect (交集）命令，给它输入邮件中找到的 
特征和训练集中的词项。返回的数据如图 3-4 中深灰色区域所示。 

分类的最后一步是判断邮件中是否有词项出现在训练集中，如果有，那就用这些特征词 
项来计算该邮件属于训练集对应类别邮件的槪串。 


90 


第3章 




训练数据 


新邮件正文 


出现在训练数据 
中但不在新邮件 
中的特征 
[忽略】 



出现在 新昍件 
中但未出现在 
训练数据 
中的特征 

(???) 


图 3-4: 新邮件的处理策略 

假设现在我们就要开始判定一封邮件是否为垃圾邮件。 msg.match 将保存这封邮件中的 
所有在训练集 spam.df 中出现过的特征词项。如果交集为空，那么 msg.match 的长度就 
比1小，干是就用先验槪率乘以小槪率值 c 的邮件特征数次幕 ( prior * c A ( length ( msg . 
freq ))) 。 得到的结果就是这封邮件被分类为垃圾邮件的槪率，值很小。 

相反，如果这个交集不为空，我们需要找出这些同时出现在训练集和新邮件中的特征閒 
项，然后査出它们在文档中出现的槪率 （ occmrence ) 。使用 match 函数完成査找，它能 
找到词项在训练数据的 term 列中出现的位置。我们根据这些位置可以从 occurrence 列中 
返回特征所对应的文档概率，返回的值保存在 match.probs 中。然后，计算这些返回值 
的乘枳，并将乘积结果冉与下列值相乘：邮件为垃圾邮件的先验槪率、特征词项的出现 
槪串以及缺失词项（未出现在训练集中的词项）的小槪率。获得的结果就是在已知邮件 
中有哪些词项出现在训练集中后，对干它是垃圾邮件的贝叶斯槪率估计值。 

作为初步的测试，我们用垃圾邮件和易识別的正常邮件来训练，再対不易识別的正常邮 
件进 ft 分类。闪为这些邮件都是正常的，所以理想情况下分类器会给它们作为正常邮件 
赋予一个较高的槪率值。然 rfii 我们知道，那些不易识别的正常邮件很难进行分类，因为 
它们包含的很多特征也同样存在于垃圾邮件中。那么现在就让我们一睹这个简易分类器 
的表 现吧： 

hardham.docs <- dir(hardham.path) 

hardham.docs <- hardham.docs[which(hardham.docs != "cmds")] 


hardham.spamtest <- sapply(hardham.docs, 

function(p) classify.email(file.path(hardham.path, p), 
training.df = spam.df)) 

hdrdham.hamtest <- sapply(hardham.docs, 

function(p) classify.email(file.path(hardham.path, p), 
training.df = easyham.df)) 


分类： 垃圾过滤 


91 




hardham.res <- ifelse(hardham.spamtest > hardham.hamtest, TRUE, FALSE) 
summary(hardham.res) 


我们像以前一样需要依次得到所有文件的路径，然后用 sapply 封装了对垃圾邮件和正 
常邮件的测试， 敁沿 再用不易识別的正常邮件测 W 分类器。向 fthardham . spamtest 和 
hardham . hamtest 中分別保 存了 每一封邮件在给定对应训练数据的前提卜'是垃圾或正常邮 
件的条件槪率计算结果。我们用 ifelse 命令比较这两个向量中的槪串值，如果 hardham . 
spamtest 中的槪率大干 hard ham . hamtest 中对应的概率，那么分类器就判定其为垃圾邮 
件，反之就是正常邮件。最后，用 summary 命令检査结果，参见表3-2。 

表 3-2: 用不易识别的正常邮件来测试分类器 


邮件类型 

1分类为正常邮件的数量 

分类为垃圾邮件的数量 

不易识别的正常邮件 

184 

65 


恭喜！你已经写好了第一个分类器，而且它可以较出色地将不易识別的正常邮件识别为 
非垃圾邮件。在这个案例中，误判率（误判为垃圾邮件的比例）约为26%。也就是说， 
有四分之一的不易识别的正常邮件被误判为垃圾邮件了。你可能觉得这个效果不够好， 
在实际中我们也不愿看到邮件平台有这样的结果，但是考虑到这个分类器只是一个简易 
版，它的表现还是不错的。当然， E 好的测试不仅仅只看分类器对不易识別的正常邮件 
的表现，还要看其对易识别的正常邮件和垃圾邮件的表现如何。 

用所有邮件类型测试分类器 

第一步就是实现一个简单的函数，用于一次性对所有邮件完成像1:一节那样的槪率比 
较。 

spam.classifier <- function(path) { 

pr.spam <- classify.email(path, spam.df) 
pr.ham <- classify.email(path, easyham.df) 
return(c(pr.spam, pr.ham, ifelse(pr.spam > pr.ham, 1, 0))) 

} 

为了简单起 ! aL ，spam . classifier 函数将根据训练数据 spam . df 和 easyham . df 判定邮件是否 
为垃圾邮件。如果邮件是垃圾邮件的槪率大于它是正常邮件的槪串，函数就返 Ml ，否 
则返回0。 

本案例 的最后 一步，我们要用简易分类器测试垃圾邮件、易识別的正常邮件和不易识別 
的正常邮件的第二套数据。这些过程和上一节所做的基本相间：把 spam . classifiei : 函数 
封装在 lapply 函数中，传入文件路径，生成一个数据框。因此，此处就不再列出这些函 
数了，但是鼓励你参考文件 email _ classifier . R 中自第259行开始的内容，看看具体如何 
完成这些测试。 
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这个新的数据框包含三个数据集中每封邮件作为垃圾邮件或正常邮件的概串、分类结 
采、 邮件 标注类型。这个新的数据集叫做 class . df ， 用 head 命令可以査看其 内容： 


head(class.df) 



Pr.SPAM 

Pr.HAM 

Class 

Type 

1 

2.712076e-307 

1.248948e-282 

FALSE 

EASYHAM 

2 

9.463296e-84 

1.492094e-58 

FALSE 

EASYHAM 

3 

1.276065e-59 

3.264752e-36 

FALSE 

EASYHAM 

4 

o.ooooooe+oo 

3.539486e-319 

FALSE 

EASYHAM 

5 

2.342400e-26 

3.294720e-17 

FALSE 

EASYHAM 

6 

2.968972e-314 

1.858238e-260 

FALSE 

EASYHAM 


从前六条结果可以看出似乎分类器的表现还不错，但是，我们来计算一下分类器在整个 
数据集上的误判率和漏判串（漏判为垃圾邮件的比例）。为此，我们需要用分类结果构 
造一个 NxM 矩阵，行是实际的邮件类型，列足预测的邮件类型。闪为把三类邮件分成 
两类，所以我们的混淆矩阵有三行两列（见表 3-3) 。每一列就足预测为正常邮件或者垃 
圾邮件的 ff 分比，如果我们的分类器表现完美，那么分类结果里的两列相应的值应该是 
[1，1，0】和[0,0，1】。 

表 3-3: 分类结果矩阵 


邮件类型 

分类为正常邮件的比例（％) 

分类为垃圾邮件的比例（％) 

易识别正常邮件 

0.78 

0.22 

不易识别正常邮件 

0.73 

0.27 

垃圾邮件 

0.15 

0.85 


M 然分类器效采还足相当不错，不过，并不完美。和第一步测试一样，仍然有约25%的 
误判率， 艿中分 类器对易识别正常邮件的分类效果略好干对不易识别的正常邮件。另一 
方面，垃圾邮件的漏判率也 吏低， 仅15%。为了对分类器的预测结果有更深的认识，我 
们用散点图把结果绘制出来，其中 x 轴是邮件作为正常邮件的槪韦， y 轴是作为垃圾邮件 
的概率。 

图 3-5 展示 Hog - log 刻度绘制的散点图。用对数 （ log ) 转换的原因是许多预测槪率非常 
小， 而另 一些又不是那么小。因为差别悬殊，所以不太 容易直 接比较结果。要把町视化 
刻度转换成更易比较的值，取对数是一种简便方法。 

我们也在图中添加了一个简单的决策边界，就是 y = x ， 或者说是一个完美的线性关系。 
之所以有这样的情况，主要是因为这个分类器要比较邮件是垃圾邮件或正常邮件的预测 
槪率，然后某干哪个概率更大再决定其类别。所以黑色决策线之上的点都应该代表垃圾 
邮件，之下的点都应该代表正常邮件。但你可以看到，事实并非如此，而是邮件类型有 
较大程度的混淆。 
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至于在误判率 h 分类器表现不佳的原因，从图3 5上也能得到一个直观的感觉。看上去， 
分类失败有两个普遍的可能原因。第一，许多不易识别的正常邮件被判定为垃圾邮件 
的槪串大于0，而它被判定为正常邮件的槪率却几乎为0，在图中就是那些落在 y 轴上的 
点。第二，姑识別的正常邮件和不易识别的正常邮件被判定为正常邮件的相对槪率都很 

&译注3 
向 O 

观察到这两个现象都说明不易识别的正常邮件的训练数据不足，因为 ffi . 然还有很多与正 
常邮件相关的特征现在还没有被纳入训练数据。 


图 3-5: 邮件分类的预测概率散点图， log - log 刻度 


译注3:这说明样本并夂从概丰上体现出二者的区分度。 


l5vds£sol 
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效果改进 

本章介绍了文本分类的概念。为此，我们用最少的假设和特征构造了一个简易的贝叶斯 
分类器。这种分类器的核心是经典的条件概率理论在当代的应用。尽管我们只用到了现 
存整个数椐的一小部分来训练分类器，但是，这种简单的方法却表现 得可圈 可点。 

我们也提到了，误判率和漏判率远远达不到垃圾过滤器的实用水准。也正如幣章过程中 
我们一贳强调的那样，有许多简笮的调幣方法可用来提高现有模型的效果。比如，我们 
的方法是假设邮件作为垃圾邮件和正常邮件的先验概率相同。然而实上，我们知道汜 
常邮件和垃圾邮件的比例关系接近80%比20%。那么，改善效果的方法之一就是修改先 
验槪率来反映这个事实，并重新计算预测 溉串： 

spam. classifier<-function (path) { 

pr.spam<-classify.email(path, spam.df, prior=0.2) 
pr.ham<-classify.email(path, easyham.df, prior=0.8) 
return(c(pr.spam, pr.ham, ifelse(pr.spam > pr.ham, l, 0))) 

} 

你佐该还 id * 得我们在 classify . email 闲数中留下 广一个 prior 参数可以调 W , 因此只需 
将前面案例的 spam . classify 做这样一个小改动即町。我们要重新运行分类器，并对照 
结果，而 ft 鼓励你也这样做。然而，这个新的假设与我们数据中两类邮件的分布并不相 
符。为了更加准确，我们应该用整个易识別正常邮件的数据集重新训练分类器。你应该 
还 ill 得我们之前只用了原始正常邮件数据的前500封，目的是使训练数据与贝叶斯假设 
-•致。按照这个逻辑，为了与新的假设一致，我们必须引人整个数据集。 


当用新的 easyham . df 和 classify . email 参数更新^分类器后，我们看到，在误 判率方 
面，分类器的性能明显得到了提升（见表 3-4) 。 

表 3-4: 改善后的分类器结果矩阵 


邮件类型 

分类为正常邮件的比例（％) 

分类为垃圾邮件的比例（％) 

易识别的正常邮件 

0.90 

0.10 

不易识别的正常邮件 

0.82 

0.18 

垃圾邮件 

0.18 

0.82 


就足这个小小的改变，误判率降低了50%!然而有趣的是，通过这一方法改傳性能后， 
漏判率却惨不忍睹。本质 h 讲，我们所做的其实是移动了决策边界（回顾图 3-1) 。这种 
方式是用漏判串的上升换来了误判率的 F 降。这个案例很好地说明了为什么模型指定很 
关键，每个假设和特征的选择是如何影响结果的。 
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下一草，我们要拓宽视野，不再只关注简单的二分类一非此即彼——这样的案例。本 
章一幵始就提到，通常很难或几乎不可能基于单个决策边界对观测记录进行分类 。 f 一 
章我们要探索如 H 基于与高优先级有关的特征对电子邮件进行排序。尽管分类任务范_ 
不断柘宽，模型的特征选择依然很重要。下一章你会看到数据如何限制了特征的选择， 
以及这对模型设计的影响有多严重。 
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排序「智能收件箱 


次序未知时该如何排序 

第3章中我们洋细讨论 r 二分类的槪念一也就是把对象判定为两个类别中的其中一个。 
在很多情况下，能够做出这样的辨别，我们就满意了。但是，如果同一个类別屮每个对 
象并非被同等创建，并且我们想在这个类别中对它们进行排序那又该当如何？举个简单 
的例子，假如我们想说某一封邮件垃圾倾向最高，另一封的垃圾倾向程度次之，或者用 
其他有效的方式去对它们进行区分，那该怎么办呢？设想一下，我们不仅要过滤垃圾邮 
件，还要将更重要的邮件置顶在收件箱列表中。这个问题在机器学习中很常见，也将是 
本章的重点。 

通过产生一组规则对一个对象列表排序，这在机器学习中越来越常见，只不过你可能还 
未从专业角度思考过。你更可能听说过类似推荐系统的东西，它就是在后台对产品进行 
了排序。即便你可能连推荐系统也没听说过，但是你肯定在某些场合使用过或者与之交 
互过。一些非常成功的电子商务网站已经从中尝到甜头了，他们利用其用户数据为用户 
推荐可能感兴趣的其他产品。 

举个例子，如果你普经在亚马逊 ( Amazon . com ) 上买过东西，那么你就与推荐系统交 
互过。亚马逊要解决的问题很 简单： 你 ft 可能购买他们列表上的哪些库存商品？这种说 
法的隐含意义 就是： 亚马逊列表上的库存商品对每个用户来说都有一个特定的顺序。同 
样，在 Netflix . com 上有海量的 DVD 可以出租给用户。为了让用户能在这个网站上找到尽 
能多感兴趣的 DVD ， Netflix 部署了一套复杂的推荐系统用于为人们提供租赁建议。 

这两家公司的推荐系统都基于两种数据。第一种是库存商品本身的数据。对亚马逊来 
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说，如果商品是一台电视机，那么这种 数据吋 能包含其类型（比 如： 等离子、 LCD 、 
LED ) 、制造商、价格等。对 Netflix 来说，这个数据也许是电影的体裁、演员阵容、导 
演、片长等。第二种足消费者浏览和购买行为数据。这类数据可以帮助亚马逊了解人 
多数用户在购买一台新等离子电视机时需要什么 配件； 吋以帮助 Netflix /解 George A . 
R 0 me r 0 lffil 的粉丝们最经常租赁的是哪些浪漫喜剧。这两种数据的特征很容姑确定，我 
们知道什么样的数据是分类数据标签，比如产品类型或电影体裁，而且用户产生的数据 
以购买/秕赁记录以及评分等形式已经被很好地结构化。 

在进行排序时，通常已有明确的输出实例，这种机器学习问题一般称为有监督 学>1 
(supervised Learning ) 。与之相对的是无监督学习 (unsupervised learning ) ，无监督 
学习在开始处理数椐时预先并没有已知的输出实例。要对两者的区別理解得史透彻，可 
以把有监督学习看成是经过指异的学习过程。比如，你要教一个人烤櫻桃派，你可能会 
给他•份食 I 普，然肜让他尝尝白己做出来的派。尝过之后，他可能会根据味道对配料 W 
做一些调幣。有了一份用过的配料表（也就是输入），也有了做出来的味道（也就迠输 
出），这意味着他可以分析每一种配料有多大的作用，从 ltd 找到一份制作美味樱桃派的 
完美食谱。 

相反，如果你只知道炸豆泥可以搭 ftd 炸玉米粉 阀饼， 而烤樱 桃吋以 和面闭搭配，那么你 
也许 能够把这些调料划分成不同的类型有些可以用来做畢西哥菜，有些可以用来 
做美式甜点。实际上最常见的无监督学习就足聚类，聚类就是把对象按照其相 N 点或不 
同点分别归入一■定数目的组内。 

如果你已经读过第3章并且做过其中的练 >], 那么你已经解决了一个有监 n 学习 的问题 
了。在垃圾邮件分类中，我们已经知道了与垃圾邮件和 | K 常邮件内容相关的间项，并依 
据这个指导训练了一个分类器。因为那里的问题很简单，所以虽然只用了一种特征集： 
邮件内容的词项，但是得到的分类效果还4、错。对于排序来说，需要给每个特征词赋分 
一个唯一的权重，以此来更好地对其进行分层并排定次序。 

因此，接 F 来的内容中将专门回答本节题目中的问题：次序未知时该如 H 排序？ 你可能 
也猜到 r ， 具体到根据邮件重要性进行排序，需要将问题 变成： 在邮件数据中如何得到 
特征，以及这些特征如 H 与邮件的优先级挂钩？ 

按优先级给邮件排序 

哪些因素决定 r 邮件的重要性？要回答这个问题，先退一步想想什么是邮件。首先，它 

译注1: George A . Romero 是美国电影导決。 

译注2:因为没有人教你如何划分，所以称为“无监督”。 
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是一种墓子事务的媒介。人们在不断地收发消息。因此，要确定邮件的重要性，需要关 
注事务本身。在垃圾分类中，可以利用所有邮件的靜态信息来决定其类型，而与之不同 
的是，要根据 電要性 给邮件排序，必须关注往来事务本身的动态信息。具体地 i 井，我们 
要做的就是确定一个人在收到一封新邮件后马上处理的可能性有多大。换句话说，假设 
已经选择好特征集，那么收件人会在短时间内处理这封邮件的可能性有多大。 

这个问题涉及的一个新的关键维度就是时间。在一个基于事务的情境中，要对事件的 ® 
要性排序就得考虑时间闪素。用时间来决定邮件的重要性，很自然的方法就是计算收件 
人在收到邮件后过了多少时间才处理这封邮件。在给定特征集下，这个平均时间越短， 
那么这封邮件在所属类型中的重要性就越高。 

这个模型的隐含假设就 是越韋 .要的邮件越早被处理。直观上感觉这足讲得通的。每个人 
在 fir 着收件箱浏览邮件时，都可以将需要立即处理的和可以稍后处理的邮件分辨得清清 
楚楚。我们这样自然而然做出的区分正是下面几节要让算法实现的功能。但是在开始之 
前，必须确定邮件内容里的哪些特征可以很好地表征邮件优先级。 

邮件优先级的特征 

如果你用过 Google 的 Gmail 邮箱服务，就会知道 Google 在2010年最先开始普及“軒能收 
件箱”这一概念。当然，正是因为这个给了我们灵感在本章探讨排序案例研究，所以 
在设计自己的排序算法之前，有必要先复习一下 Google 所实现的排序算法。 Google 在 
公布智能收件箱的特征几个月之后，他们发表了一篇题为 “The Learning Behind Gmail 
Priority Inbox ” 的论文，文中描述了他们的有监督学习的设计策略，以及怎么成规模地 
实现这个策略 [ DA 10】。 出于本章的 H 的，我们只对前半部分感兴趣，但是作为本章的补 
充读物，强烈推荐你完整阅读这篇论文，而且一共才四页，这点时间值得花。 


前面提到过，对时间的测量最关键，而在 Google 的项目里，他们拥有长时间范 W 内用户 
与邮件的详细交互记录。具体地说， Google 的智能收件箱想预测的是用户在收到邮件后 
的几秒内对邮件采取行为的槪率。用户在 Gmail 里面可以采取的行为种类 很多： 阅读、 
回复、标记等。这里所说的收到邮件 ( delivery ) 的时间不完全等同于服务器收到邮件的 
时间，而是用户收到邮件的时间，即当用户査看邮箱时。 

和垃圾邮件分类相比，这是一个相当好表述的 问题： 我们首先定义一些"了能的行为集合 
(阅读、冋复、标记等），然后定义一个时间区间（比如，用户看到邮件后1〜10秒）， 
我们需要判断，在定义的时间区间内，用户会执行定义的行为集合中某些行为的概率是 
多少？ 

在海 A ： 的邮件特征中， Google 决定把重点放在哪些特征上？你可能也想到了，他们采用 
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的特征数量非常大。正如该论文作者所述，和垃圾分类不同——垃圾分类对所用用户儿 
乎没有差别——每个人对邮件的优先级都有不同的排序方式。鉴于用户在评价特征集这 
方面的差异性， Google 的方法需要采用多个特征。为了开始设计苁法， Google 的工稈师 
探索了邮件各种各样的特征，他们对此是这样描 述的： 

有儿百个特征，可以分为几大类別。社交特征 （social feature ) 基干收件人和发件 
人之间的交互程度，比如某个发件人的邮件被收件人阅读过的百分比。内容特征 
(content feature ) 用于识別和收件人对邮件采取行为与否卨度相 关的 最近特征词 
和头部信息，比如，一个最近特征词在主题中的出现。最近用户的特征词足在学习 
之前 颅处理 阶段发现的。线程特征 （thread feature ) 记录用户在当前线程下的交5 
行为，比如，用户开始一个新线程。标签特征 （label feature ) 检査用户通过过滤器 
给邮件陚予的标签。我们在排序过程中计算特征值，并临时存储特征值以备之后学 
习使用。通过对连续型特征值的直方图使用类似 1 D 3 的简单算法，可以将其自动地 
划分为二值特征。 

前® Li 经提到过， Google 拥有的用户与 Gmail 的交互记录时间跨度非常长，因此，关于 
用户 M 时对邮件采取何种行为，他们有很全面的认识。遗憾的是，在我们的案例中 ，令 
不到这样详细的用户日志。干是，我们还是用 SpamAssassiii 公幵语料库来代替，这个语 
料 库 ( Ehttp : //spamassassin .apache . org / publiccorpus / Al 可以 免费下 我。 

尽管发布这个数据集的初衷是用来测试垃圾分类算法的， m 是其中也包含了每一个用户 
邮件的时间线 （ timeline ) ，这很方便。有了这样一个单线程信息，也可以把这份数据 
集用干设汁并测试一个优先邮件排序系统。我们也只关心这份数据集中的正常邮件，因 
此，所要检査的邮件都是用户希望出现在其收件箱中的。 

然而，在处理之前，必须思考我们的数据集相比一份洋尽的用户 H 志（比如 Google 所拥 
有的）有 H 不同，以及这如何影响了算法中能够使用的特征。首先来回顾一 KGoogk 提 
出的四类特征，并考虑其如何应用于我们的数据集。 


菁告： 一份详尽的邮件日志和我们要处理的数据之间最大的不同 就是： 我们只能看到接收邮件 
的内容本身。这意味《•我们实际 t 是“換黑赶路”，因为无法得知用户何时对邮件做了 
H 种响应，也+知道一个线程是否由该用户发起 # 这是一个 显著的 局限性 (significant 
limitation ) ,因此在本章所使用的算法和策略应该仅仅视为练习，而不是 在企业 级智能 
收件箱系统实现的例子。我们想要达到的目的是给大家展示其原理，甚至在这样的局限性 
下，也能用这份数据来创建邮件重要性表征量并设计一个相当好的排序系统。 


既然邮件是基于事务的媒介，那么其社交特征在邮件重要性评估方面举足轻重。在我们 
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的案例中，仅能得到一半的事务 id 录在特征详尽的案例中，会测最用户和不同发 
件人之间的 交互景 来确定哪一个发件人得到了该用户更多的立即响应。然而，在我们的 
数据屮，仅仅能测最接收量。因此， " T 以假设这种单 向度釐 能够较好地代表我们试图从 
数据中柚取出的社交特征类型。 

很明显这并不理想。但是别忘了，在这个案例中只使用了 SpamAssassiii 公开语料库中的 
正常邮件。如果一个人从一个固定地址收到了大量的正常邮件，那么可能的原因是发件 
人和该用户之间建立了较强的社交联系。也有可能是因为该用户加入了一个邮件 W ； 巨大 
的邮件列表中，那么他可能希望这样的邮件优先级不要太高。基于此，我们在开发悱广 f : 
系统时必须考虑结合其他特征来平衡这种类型的信息。 

若只关注来自某一固定地址的邮件量，带来的一个问题就是延 fef 时间属性。跟一份 i 羊 
尽的日志相比，我们的数据集是静态的，因此必须把数据拆分成若干时 N 片段，然后测 
量每一个片段内的邮件景，从而能对时间动态性有吏深入的理解。 

在这个案例中，我们要对所有邮件信息简单地按时间排序，然后将数据集一分为二（这 
一点在稍后会详细讨论）。第一部分数据用于训练排序系统，另一部分数据用干测试排 
序系统。因此，在训练数据所覆盖的整个时间周期内，来自每一个地址的邮件将用于 
训练排序系统的社交特征。 

鉴于数据的先天不足，这样的处理可能开了个好头，但是如果希望悱序更准确，就需要 
在理解上更深入些。为了对动态特征 有电细 粒度的认识，这就需要拆分数据，其方法之 
- 就足，识别出会话线程，然后度董线程内的活动。（为了 i 只别线程，可以从其他邮件 
客户端借鉴技术，匹配主题中的线程关键词项，比如 “ RE : ” ） 尽管不知道用户对一个 
线程采取了哪些行为，但是我们 假设： 如果线程很活跃，那么它就比不活跃的线 程更® 
要。通过把时间像这样切分成片段，对要用于邮件优先级建模的线程特征来说，可以获 
得更准确的表征景。 

接 F 来，可以从邮件中抽取许多内容特征添加到特征集里。在这个案例中，像以前一样 
将问题简化，把第3章的文本挖掘技术沿用到这里。具体而言就是，如果有些词项同时 
出现在邮件主题和正文中，用户将来收到新邮件，当主题和正文中都包含这些词项时， 
它就比其他邮件要重要些。这是个常见的方法，在 Google 智能收件箱论文中也有所涉 
及。基干主题和正文包含的词项来引人内容特征，我们遇到了一个有趣的 问题：权重 
( weighting ) 。在典型的邮件中，主题包含的词比正文要少得多，因此，同一个词项出 
现在主题时和出现在正文时，应该被 赋予不 同的权重值。 


译注3:有收有发才是完整的事务记录，此处指“有收无发”的亨务记录。 
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最后，在很多已发布的企业级智能收件箱的实现中还采用了许多其他特征（比如说 
Gmail ) ,但在这个案例中根本得不到这些特征。前文提到过，在社交特征集方面，我 
们简直足两眼一抹黑，因此必须使用表征量来测量这些交互行为。此外，还有很多用户 
行为甚至都无法估计。比如说，用户进行标 id 和移动邮件的行为，我们完全不得 而知。 
在 Google 的智能收件箱实现中，这些行为构成 r 其行为集合的重要部分，但是在本案例 
中完全缺失 r 。 再强调一遍，虽然与使用详尽 u 志的方法相比，本案例中的方法闪为没 
有 I 羊尽的 h 志记录，的确存在一个很大的缺陷，但是这-•缺失并不影响我们的结果。 

现在，我们对用于创建邮件排序系统的特征集有了一 个基本 蓝图。首先，对邮件按时 N 
排序，因为在本案例中，我们感兴趣的大部分预测都包含在时间维度中。第一部分邮 
件用干训练排序算法。接下来，四种特征将用于训练过程。首先足锌代社交特征的表征 
最，即衡董训练数据中 来自某 个用户的邮件最。接下来，通过发现不同线程来压缩时 m 
测量值，并按照活跃度给线程排序。最后，基于邮件主题和正文中的卨频词项增加两个 
内容特征。图 4-1 示意了从邮件中抽取这些特征的方法。 

在下- W 中，我们将实现这里所描述的智能收件箱。 通过使 用这电列出的特征，我们将 
制定一个权重计算方法，从而快速地 把史重 要的邮件放到栈顶。和之前一样，汴先要读 
取原始邮件数据，根据特征集抽取相应片段。 



图 4-1 :从邮件数据中抽取优先级特征的策略 


实现一个智能收件箱 

到 LI 前为止，你可能巳经注意到一个 趋势： 在进入机器学习最迷人的地带之前，我们都 
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要在数据泥潭屮打滚，忙若对数据进行拆分、抽取、解析直到其形式符合分析标准为 
止。到目前为止，所经历的过程都还算轻松。构建垃圾分类器，只需简单地抽取邮件正 
文，然后把所有重活都交给 tm 程序包去做。然而在本案例中，增加了若千其他特征到数 
据集中，汴且引入了时间维度，使这个过程史复杂。因此，处理数据的工作 ttW . 著增 
加。但是，我们是黑客，因此充分和数据打成一团正合我意。 

在这个案例中，只关注 SpamAssassin 公开语料库的正常邮件。和垃圾分类案例不同之处 
在 T 这个案例中我们不在意邮件的类型，而是重点研究如何对每封邮件按照优先级进行 
排序。因此，要用到数据量最大的易识别的正常邮件数据集，也不再担心会带入其他类 
型的邮件。 W 为完全可以假设用户在确定哪一封邮件优先级更高时不会费心区别邮件的 
类型所以完全没有必要把类型信息引入到排序系统中来。相反，我们希错可以从一 
个用户的邮件中学习到尽可能多关干特征集的知识，这也是使用易识别为正常的邮件数 
据集的原因所在。 


library(tm) 

library(ggplot2) 

data.path <- ".,/03-Classification/code/data/" 
easyham.path <- paste(data.path, "easyham/", sep=" M ) 

和第 3 章炎似，本章要使用的第一个程序包就是 tm， 用于抽取主题和正文共同出现的 M 
项I另一个就是 ggplot2， 用于将结果可视化。而 BL， 因为 SpamAssassin 公开语料库足 - 
份相当大的文本数据集，所以我们不会将其复制到本章的 y 录下，而是把相对路柃 
设 置为第 3章的对应文件。 

接卜‘来，我们要实现一系列的函数，然后利用这些函数共同分析每一封邮件，得到如 
图 4-1 所示的特征集合。从这张图中可以者出，需要从毎一封邮件中抽取四个 元素： 发件 
人的地址、接收 n 期、主题、邮件正文。 


用于抽取特征集合的函数 

大家应该还记得，第2章啓提出数据方块的概念。因此，在这个案例中，构 违1 川练数据 
就是一个“方块化”的过程。我们需要把邮件数据塑造成为一个可用的特征集合。从邮 
件电抽取的特征组成了训练数据方块的每一列，而每一行则是来白每一封邮件的特征唯 
•值。用这种方式把数据槪念化非常有用，因为我们需要将邮件中 乍结构 化的文本数据 
转换为卨度结构化的训练数据集，以便用干后续邮件排序。 

parse.email <- function(path) { 


注丨： 简单地说，这个假设 就是： 对于更验以识别为正常的邮件，用户不会对其采 取什么 行为。 
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full.msg <- msg.full(path) 

date <- get.date(full.msg) 

from <- get.from(full.msg) 

subj <- get.subject(full.msg) 

msg <- get.msg(full.msg) 

return(c(date, from, subj, msg, path)) 

} 

为了对这个过程进行分析，我们退一步，先来了解一下 parse . email 函数。这个函数会调 
用一系列的辅助函数，从每一封邮件中抽取相应数据，然后依次放入一个向最中。命令 
c ( date , from , subj , msg , path ) 创建的向董构成了数据中的一行，这个数据最终会构 
成训练数据。但是，把邮件转换为向量的过程需要一些经典的文本处理方法。 


注意： 我们把路径作为数据的敁后一列进行保存，这使测试阶段的排序更容易一些。 


msg.full <- function(path) { 

con <• file(path, open="rt", encoding="latinl") 

msg <- readLines(con) 

close(con) 

return(msg) 

} 

如果你已经完成了第 3 章的案例，那么应该非常熟悉 msg . full 这个函数。在这个函数 
里，我们只是简单地打开一个文件的路径，并且读取文件内容到一个字符串向量中。 
read Lines 函数会生成一个向 H , 向量中的元素就是文件的毎一行。与第3章不间的是， 
这里我们不再预处理数据，因为需要从邮件中抽取不间的元素。相反，我们会把整个邮 
件作为-个字符串向量返回，再另外写一些函数来处理这个向量，以抽取必需的数据。 

有这个邮件向最在手，我们要在数据泥潭中奋力开辟一条道路，以便能够从邮件数据中 
柚取出尽量多的有用信息一并且用统-的方式将其组织好——从而构建出训练数据。 
疗先进行相对简单的工作，抽取发件人地址。要完成这一任务一以及本节所有其他数 
椐的柚取一我们需要找到邮件中的文本模式，因为利用文本模式可以识別出我们所要 
寻找的数据。既然如此，那先来看几封邮件，如例 4-1 所示。 

例 4-1: 电子邮件的“来自”文本樸式差异示例 

Email #1 

X-Sender. fortean3@pop3.easynet.co.uk (Unverified) 

Message-Id: <p05100300bal38e802c7d@[194.154.104.1711> 

To: Yahoogroups Forteana <zzzzteanapyahoogroups.com> 

From: Joe McNalty< joe#flaneur.org.uk> 

X-Yahoo-Profile: wolf_solent23 
MIMEVersion: 1.0 

Mailing-List ： list zzzzteana@yahoogroups.com; contact 
forteana owner 矽 yahoogroups.com 
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Email #2 


Return-Path: paul-bayes 逆 svensson.org 
Delivery-Date: Fri Sep 617:27:57 2002 
From: paul-bayes@svensson.org (Paul Svensson) 

Date: Fri, 6 Sep 200212:27:57 -0400 (EOT) 

Subject: [Spambayes] Corpus Collection (Was: Re: Deployment) 

In-Reply-To: <200209061431.g86EVM114413@pcp02138704pcs.reston01.va.comcast.net> 
Message-ID: <Pine.LNX.4.44.0209061150430.6ft40-100000@familjen.svensson.org> 


分析完几封邮件之后，我们可以观察到文本中发件人邮件地址的关键模式。例 4-1 展示的 
两段邮件摘录突出显示了这些模式。首先，我们需要识別每一封邮件中包含邮件地址的 
行。从上述示例中可以看出，这样的行总是包含 “ From :” 这个词项，这在第3章所提到 
的邮件〖办议中已经指明。因此，我们可以利用这个信息来搜索由每封邮件得到的字符串 
向量，从而识别出正确的元素。但是，从例 4-1 中可以看出，不同的邮件地址写法有所不 
同。这一行总足包含发件人的名字和发件人的邮件地址，但是有时候把地址放在尖括号 
中（邮件 Email #1) ,有时候没有放在尖栝号中（邮件 Email #2) 。为此，我们要写一 
个 get . fmm 函数，使用正则表达式来抽取这个特征数据。 

get.from <- function(msg.vec) { 

from <- msg.vec[grepl( M From: msg.vec)] 

from <- strsplit(from, •[’:<> ]')[[l]] 
from <- from[which(from !=••••& from !=••")】 
return(from[grepl(from)][1]) 

} 

我们已经见 W 过， R 有许多强大的函数是通过正则表达式来实现的。 grepl 函数的功能 
与标准的 grep 函数-•样，用于匹配正则表达式模式串，只不过字母“ I ”代表“逻辑 
的” （ logical ) 。因此，它不是返回向量的索引号，而是返回一个和 msg . vec 长度一样 
的向 M ， 这个向 M 中的元紊用于标识字符串向量每个元素是否匹 rtd 上模式串。在函数 
第一行后面， from 变董是-个字符串向量，它只有一个 元素： 例 4-1 中突出吐示的包含 
“ From : ” 的那一行。 

既然已经得到 lH 确的行，就需要只抽取地址本身。为此，要用到 stirsplit 函数，它根据 
给定的£则表达式模式把一个字符串拆分成一个列表。为了能正确地抽取出地址，需要 
考虑到例 4-1 中文本模式的差异性。干是，用方括号为模式创建一个字符集。这里用来 
拆分文本的字符 包括： 冒号、尖括号、空格。这种模式总是把地址拆分为列表的第•个 
元紊，因此可以用 [[1]] 把地址从列表中抽取出来。然而，因为文本模式存在变化，所 
以会抽取到空元素。为了只返回邮件地址本身，我们会忽略这些空元素，然后杳找包含 
符号的元素并返回它们。目前我们已经分析得到了用于产生训练数据所需数据量 
的四分之一。 


get.msg <- function(msg.vec) { 
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msg <• msg.vec[seq(which(msg.vec -= "” ） [1] + 1, length(msg.vec), l)] 
return(paste(msg, collapse="\n")) 


接卜‘來抽取的两个 特征： 邮件主题和正文，操作相当简单。在第3章中，我们需要抽取 
正义來》化垃圾邮件和正常邮件中的词项。因此，那里的 get . msg 函数可以在这里的任 
务中简单复用。回想一下，邮件正文总是出现在邮件中第一个空行后面。因此，简争地 
在 msg . vec 中丧找第一个空行即可，然后返回空行之后的所有元紊。为了简化文本挖掘 
过程，用 paste 闲数把这些向量转换成一个字符串元紊的向量后返回。 

get.subject <- function(msg.vec) { 

subj <- msg.vec[grepl("Subject: M , msg.vec)] 
if(length(subj) > 0) { 

return(strsplit(subj, "Subject: ")[[l]][2]) 

} 

else { 

return (••") 


抽取邮件主题和抽取发件人地址方法类似，实际上史简单些。在 get .sub j ec t 函数中， 
再一次通过 grepl 函数在每一封邮件中杳找 “ Subject :” 模式串，从而找出包含主题的 
行。但是，有这样一个 问题： 实际 h 数据集中并非每一封邮件都有主题。模式匹 fli ! 在 
这样的极端情况下就会出现问题，为了防止出现这种问题，进行一个简单测试，看看 
grepl 闲数实 k 上是否返回 T 东两。这就需要检査 subj 的 length (长度）是否大于0。如 
果大于0,把这一行按照模式拆分，并返回拆分得到的第二个元素；如果不大干0，则 M 
一个空字符。在 R 中，当诸如 grepl 这样的匹配函数得不到匹配时，默认会返回一个指定 
的值，如 integer ( O ) 或者 character ( o )， 这些值的长度为0。因此在一大堆杂乱的数据上 
运行函数时，进行这样的检査还是挺不错的。 


警告：在第3 i ?: 的文件夹 K , 你看到的 00175.* 这个文件就是一封有问题的电 
子邮件。当试着给自己研究的问题引入数据时，像这样遇到异常数据的情况是经常不过 
了。想要解决这一 W 题，需要反釔尝试，就像我们在这串.所做的一样。首要的问题是保持 
冷静，深挖数据以找到问题所在。在把数据解析成可使用形式的过程中，你若一帆 W * 顺， 
那么很冇可能你的做法不对。 


到观在为止，我们已经得到了四分之三的特征了，不过，正是最后这个特征（邮件接收 
H 期和时间）才最 Ih 我们痛不欲生。这个问题不好对付的原因有两个。第一个原因，处 
理 H 期是-个永远的难题，因为不同的编程语言常常在时间的设计理念上有些许不 N , 
在这个案例中， R 也不例外。最终我们想把 U 期字符串转换成 POSIX 日期对象，目的是 
可以按照 n 期对数据排序。佴是要做到这一点，需要一个统-的日期表现形式，这也是 
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要提到的第二个 原因： 在 SpamAssassin 公开语料库中，邮件接收 H 期和时间表现形式存 
在很人的差异。例4 2展示 r 一些这方面的差异。 


例 4-2: 邮件接收日期和时间表现形式差异 

Email #1 


Date: Thu, 22 Aug 200218:26:25 +0700 
Date: Wed, 21 Aug 200210:54:46 -0500 

From: Chris Garrigues lt;cwg-dated-1030377287.06fa6d@DeepEddy.Comgt; 
Message-ID: lt;1029945287.4797.TMDA@deepeddy.vircio.comgt; 


Email #2 


List-Unsubscribe: It;https7/example.sourceforge.net/lists/listinfo/sitescooper-talkgt;, 
lt;mailto:sitescooper-talk-request@lists.sourceforge.net?subject=unsubscribeqt; 
List-Archive: lt;http://www.geocrawler.com/redir-sf.php3?list=sitescooper-talkgt; 

X Original-Date: 30 Aug 2002 08:50:38 -0500 
Date: 30 Aug 2002 08:50:38-OSOO 


Email #3 


Date: Wed, 04 Dec 200211:36:32 GMT 
Subject: [zzzzteana] Re: Bomb Ikea 
Reply-To: zzzzteanai^yahoogroups.com 
Content-Type: text/plain; charset=US-ASCII 


Email #4 


Path: not-for-mail 

From: Michael Hudson lt;mwh@python.netgt; 

Date:04D«c 200211:49:23 +0000 

Message-Id: It;2madyyyyqa0s.fsf@starship.python.netgt; 


你也否到了，当我们从毎一封邮件屮抽取 H 期和时间信息时，需要考虑多方面的因桌。 
从例 4-2 屮 吋以观 察到第•个特点 就是： 我们所要抽取的数据总是包含 “ Date : ”，但 
足，在使用这个模式时必须汴意可能存在的问题。例4 2中的邮件 Email 表明有时候 

会有多行匹配卜.这个模式。冏样邮件 Email #2也体现了一个 特征： 有的行吋能会部分叫 
fill 。 这两种愔况中的任何一种发生时，这些行的数据就会互相冲突。第二个特点 是：在 
这四个邮件示例中，我们看到， H 期和时间都不是用统一方式表示的。在所有邮件中， 
都行一个附加的格林 M 治栎准时间 （ GMT ) 偏移 M ， 以及一些其他的标签信息。最后一 
点 ， Email #4中 H 期和时间的格式和前面两封邮件中的完全不同。 

在把数据转换成统一的、町用形式的过程中，所有这些信息尤为关键。然而，现在我们 
要定义一个 get . date 函数，剔除附加的时间偏移信息，只抽取日期和时间信息。 

一旦得到了所有日期/时间卞符串之后，我们就要着手处理形式各异的日期/时间格式， 
把它们转换成统一的 POSIX 对象，何是这一步并不在 get . date 函数中完成。 

get.date <- function(msg.vec) { 
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date.grep <- grepl(" A Date: ", msg.vec) 
date.grepl <- which(date.grep == TRUE) 
date <- msg.vec[date.grep[l]] 
date <- strsplit(date, M \\+|\\-| : ")[[i]][2] 
date <- gsub(" A \\s+|\\s+$", date) 
return(strtrim(date, 25)) 

} 

我们之前提到过，许多邮件会有多行匹配上或者部分匹配上模式 “ Date :” 。然而，请 
注意在例 4-2 的邮件 Email #1和 Email #2屮，只有一行所包含的 “ Date :” 是在字符串首 
部。在邮件 Email #1中，在模式串之前存在若千空字符，在邮件 Email #2中，模式串是 
tt X - Original - Date ： M 的一部分。可以要求正则表达式只匹配在字符串首部的 “ Date :” ， 
这要使用脱字符，用 “" Date :” 来完成。现在 girepl 只有在向景元素的首部发现模式串时 
才返冋 TRUE 。 

接下来，我们想返冋 msg . vec 中匹配 t . 模式串的第一个元素。也许我们可以简箏地返 
回 msg . vec 中匹配上 grepi 中的模式的元素，但是，如果一封邮件正文中有一行是以 
“ Date :” 开始的那怎么办？如果这种异常情况发生了，我们也知道，第一个匹紀上的 
元素是在邮件的头部信息中，因为头部信息总是在邮件正文之前。为了防止这种情况出 
现，我们总是返回第一个匹配的元素。 

现在需要处理这一行文本，目的是返回一个字符串，并可以最终转换为 R 中的 POSIX 对 
象。我们已经注意到 h 期和时间后存在一些多余的信息，并且它们的格式不统一。为 r 
把 F 1 期和时间信息分离出来，需要用字符把字符串进行拆分，从而标记出多余信息。用 
于拆分的字符，可能是 a 号、加号或者减号。在大多数情况下，它们会把口期和时间信 
总保留下来，还会保留一些其后的空白字符。接下来这一行中的 gsub 函数会把首部或者 
尾部的空白字符转换掉。最后，对干例4 2的 Email #3中看到的那种多余数据，我们会简 
吊地把25个字符之后的裁剪。一个标准的日期/时间字符串是25个字符长度，因此可知第 
25个字符之后任何的字符都是多余的。 


easyham.docs <- dir(easyham.path) 

easyham.docs <- easyham.docs[which(easyham.docs != "cmds")] 

easyham.parse <- lapply(easyham.docs, function(p) parse.email(paste(easyham.path, 

P , sep *" tt ))) 


ehparse.matrix <- do.call(rbind, easyham.parse) 

allparse.df <- data.frame(ehparse.matrix, stringsAsFactors=FALSE) 

names(allparse.df) <- c( M 0ate", "From.EMail", "Subject", "Message", "Path") 

恭喜！你成功地把这批杂乱的邮件数据集转换成了一个结构化的数据方块，可用于训练 
我们的排序览法了。现在我们还得实现一个启动幵关。与在第3章中所做的类似，创建 
一个向量，包含所有“易识別的正常邮件”的文件路径，并把其中多余的 “ cmds ” 文件 
路径从向董中移除，然后使用 lapply 函数对每一个邮件文件应用 parse . email 函数。因为 
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我们要使用的是前一章的数据路径，所以也必须要在 lapply 函数内部用 paste 闲数把文件 
的相对路径和 easyham . path 变量连接起来。 


接 F 来，我们需要把 la ppy 函数返回的向量列表转换成一个矩阵——也就是数据方块。 
和以前一样，我们会用到 do . call 函数，同时结合 rbind ， 用 P 创建 ehparse . matrix 对 
象。然后把它转换成一个包含多个字符串向量的数据框，并把毎一列的名称 设贾成 
c (" Date ", " From . EMail ", " Subject ", " Message ", " Path ")。 用命令 head (allparse . df ) 
W . 示数据框的前几条数据，检査一下结果，为了节省篇幅，这里就不再展示这个过程 
了， 但是建议你亲自实践一下。 

在为这份数据指定权承计兑策略之前，仍有一些琐碎的工作需要做。 

date.converter <- function(dates, patternl, pattern2) { 
patternl.convert <- strptime(dates, patternl) 
pattern2.convert <- strptime(dates, pattern2) 
patternl.convert[is.na(patternl•convert)] <- 
pattern2.convert[is.na(patternl.convert)] 
return(patternl.convert) 


patternl <- M %a, %d %b %Y 
pattern2 <- "%d %b %Y 


allparse.df$Date <- date.converter(allparse.dfSDate, patternl, pattern2) 


前面已经说过，我们抽取 H 期所做的第一步只是简单地分离出文本。现在要把这些文本 
转换成 POSIX 对象，以便可以进行逻辑比较。这一步是必须的，因为我们需要按照时间 
对邮件进行排序。 还记 得吗？我们说过完成这个案例的关键就是时 N 维度，以及如何将 
观测特征之间的时间差异用 T 衡 tt 邮件重要性。因此，字符串形式的口期和时间是无法 
满足这些要求的。 


在例 4-2 中可以看到，日期格式有两种。在这些例子中 ， Email #3的口期/时间格式是 
“ Wed ， 04 Dec 2002 11:36:32”，而 Email #4的格式是 “04 Dec 2002 11:49:23”。为了把 
这两种字符串转换成 POSIX 格式，要用到 strptime 函数，但是需要传入两种不同的 H 期/ 
时间格式来完成转换。每一个 H 期/时间字符串都匹 fid —个具体的 POSIX 格式，因此，要 
指明转换字符串符合哪一种格式。 


注意： R 用标准 POS 1 XF 1 期/时间格式串来完成这些转换。这些格式字符串有许多选项，推荐通读 
strptime 函数的整个文档，用命令？ strptime 即可看到所有选项。我们这里仅仅用到 r 很少 
一部分，但是吏深人地理解它们非常有助于今后用 R 处理日期和时间。 


我们需要用两种不同的 POSIX 格式分别转换 allpairse . df 中 Date 这列的字符串，然后将 
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这两种格式纟 11 合加入数椐框中完成转换。为实现这一步，我们定义丫 date . converter 函 
数， ）11 1•输入两个不1司的 POSIX 模式串以及一个日期字符串向量。当传给 strptime 的模 
式串汴4、匹配传给它的日期字符串时，默认返冋 NAIS 。 我们可以利用这个值，把第一次 
转换得到 NA 值的元素用第二次转换的结果替代，从而将两个转换结果结合起来。因为我 
们知道数据中只存在两种 F 1 期模式，所以得到的结果就只足一个向量，其中包含所有转 
换为 POSIX 对象的 H 期字符串。 


allparse.df$Subject <- tolower(allparse.df$Subject) 
allparse.df$From.EMail <- tolower(allparse.df$From.EMail) 

priority.df <- allparse.df[with(allparse.df, order(Date)),] 

priority.train <- priority.df[l:(round(nrow(priority.df) / 2)),] 

清洗 X 作的 S 后一 小步是把主题 （ Subject 卞段）和发件人 （ From 卞段）这两列的字符 
串向 最全部 转换为小写。冉强调一次，这样做的 0 的是保证在训练阶段所有数据条 H 的 
格式尽量 统一。接 T 来，我们结合使用 with 和 order 命令按照时间对数据进行排序 。 (R 
的排序方法不足很 ft 观，何足你会发现将经常使用这种简便写法，因此最好熟悉它。） 
结合使用两个命令 G 会返回一个向暈，向量元素为按照时 间升序 排列的数据索引号。 
然后，用这些 索引号对数据框进行排序，我们需要按照这个顺序引用 allparse . df 的/£ 
素，并 a 在收尾的方括号前加上一个逗号，这表示所有列都按照这个方式进行排序。 

烺后，我们把按照时间排序的数据框前十•部分存储到 priority . train 中。这部分数据用 
于训练排序算法。稍后我们要用 priority . df 的第二部分数据来测试排序算法。鉴于数 
据已经结构化完毕，我们准备开始设 il •排序策略。既然巳有了特征集，处理方式之一就 
是对训练数据的毎一个观测特征赋予一定的权重。 

设计用于排序的权重计算策略 

在实现 权重计 算策略之前，请容我们简短地闲话几句关于尺度的问题。稍微想一想你自 
己的邮件行为。你是否经常和基本固定的一些人互动？你淸楚自己一天要收多少封邮件 
吗？你一周会收到多少封陌生人的邮件？如果你和我们没什么不 N , 那么我们猜想你的 
邮件行为和其他大多数人一样，人致符合2/8准则。也就是说，你80%的邮件行为是和通 
讯录中20%的人之间发生的。那么，为什么这很®要？ 

我们需要设计-个策略来对数据中特定的观测特征加权，但是因为这些特征的观测数据 
在尺度上可能存在不同，所以不能直接进行比较。更准确地说，我们不能直接比较它们 
的绝对值。就卞已经解析好的训练数据来说，我们知道排序算法的特征之一就是社交行 
为，可以用训练数据中来源干每个地址的邮件数量来近似表示这个特征。 

from.weight <- ddply(priority.train, .(From.EMail), summarise, Freq=length(Subject)) 
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要分析尺度问题如何影响第一个特征，需要统计每个邮件地址出现在数据中的频数。耍 
HJplyr 程序包来完成这一步，这个包已经在加载 ggplot 2 时作为依赖包加载 f 。 如果你匕 
经完成 f 第1章的案例，那么你已经见识过 plyr 的功能了。简单地说， plyr 中的函数家 
族用 f 把数椐分解成一些小片段，从 rfii 可以在这些片段上一次性完成操作。（这非常戈 
似 T 流行的 Map - Reduce 模式，该模式适用于很多大规模数据分析环境。）这里我们完成 
的任务很 简单： 在 From . Email 列中找出所有包含地址的行，并统计其数量。 

这51用到了 ddply 函数，它在包含训练数据的数据框上执行操作。语法要求我们先定义 
想要操作的数据组一这里就只是 From . Email 这个维度一然后定义在这个组内执行的 
操作过程。这里我们还用到了 summarise 选项来创建名为 Freq 的新列，用于保存频次信 
息。你"了以用命令 head ( from , weight ) 査看结果。 


注意： 在这个案例中，操作会询问分解后的数据框中列向 MSubject 的长度，但是实际上町以使 
H 1 训练数据中仟 H 列的名称来得到同样的结果，因为所有符合标准的数据都具冇相冏的 K 
度。越熟悉如何 Hlplyr 来操作数据，就越有助干你进阶深入，同时强烈推荐阅读程序包作 
者的论文 [ HW 1 U 。 


为了史好地理解这份数据的尺度，我们把结果绘制出来了。图 4-2 所示的是发送邮件数 
W : 在6封以上的发件人邮件 M 条形图。为了方便看图，我们对数据进行了截断，即便如 
此，我们仍然可以看到数据尺度增长之迅速。发送最排在第一位的 
在我们的数据中共发送丫45封，这是训练数据屮一般人发送量的15倍！但是 
⑺相当独特，你可以从图 4-2 中看出，仅有几个发件人的数諼能望其项背，其 
他人的邮件 H ： 急剧下降。我们怎么才能计算一般人的观测数据权重值，而不会因为个別 
特殊情况，比如此处发件最多的人，而导致这些权重值偏移？ 


Log 加权策略 

解决的方法就是尺度变换。我们需要 it 特征的数值关系不那么极端，如果只比较频次的 
绝对值，那么一封来自的邮件就比一般人发送的重要15倍。这个就 
冇问题了，因为我们想基 于排序 W 法在学习阶段产生的权重值范围来确定一个 W 值，用 
P 判断一封邮件是否排序优先。若是偏斜太过极端，_值就会要么太低要么太高，考虑 
到此处数据的本质属性，我们需要重新设定各统计值的尺度。 

干是引人 r 对数 （ logarithms ) 和对数变换 （ log - transformations ) 。你可能在初等数学 
中就 已熟悉 对数，如果不熟悉也无妨，这个槪念也很 简单： 给定一个数，用对数函数可 
以得到一个指数，这个指数满足以下等式：某个底数可以由这个指数提升到给定的那 
个数。 
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图 4-2: 训练数据中从不同发件人接收到的邮件数鼉 

这个底数在对数变换中很关键。作为一名黑客，我们的思维模式史熟悉二进制的事物， 
或者二元 ( binary ) 的事物。我们可以毫不费力地构建一个底数为2的对数变换。这样 
就需要解一个关千这个指数值的方程：底数2的该指数次¥等十要变换的输入值。举个 
例子，如果以底数为2进行16的对数变换，那就得到4, 闶为 2的4次¥等于16。从本质卜. 
说，我们在进行指数函数的逆运算， W 此这种变换在数据符合指数涵数时效果最好。 

两个最常见的对数变换就是所谓的自然对数 (natural log ) 变换和常用对数 （log base - 
10) 变换。前者底数是一个特殊的数 e , —个值约为 2.718 的无理数（像71 —样）。自然对 
数常表示为 In 。 用这个常数变换的尺度在自然界中随处可见，事实上，我们可以通过几 
何方式生成这条曲线，就是一个在圆内关于角度的函数你可能很熟悉一些符合 
然对数的形状或者关系，尽管也许你并没有以这种角度思考过这些现象。图 4-3 展示了一 
个自然对数螺旋，这个螺旋可见于许多白然界现象中，比如说鹩鹉螺的内部结构 、 miA 
(或者尼卷风）的螺旋状。 K •至银河系中星际颗粒的散布也遵循自然对数螺旋。另外， 
许多专业相机设置的孔径也是按照自然对数变化的。 


译洼4:这条曲线称为对軚蟬旋曲线，又称为等触蟬线，在极坐标系 （ r ，0> 中，其解析式为 
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图 4-3: 在自然界随处可见的自然对数螺旋 


既然 d 然对数和这么多自然现象都相近，那么能把社交数据（诸如邮件行为）重新缩放 
的指数函数还真是了不起。另外，常用对数变换也常常表示为 loglO , 就是把自然对数中 
的 e 换为 1() 即可。认识了对数变换的原理之 fi ， 我们知道和£1然对数相比，常用对数会 
把值变换得更小。举个例子，1000进行常用对数变换是3， W 为10的3 次幂是 1000， ffij 自 
然对数变换大约是6.9。闶此在数据尺度的指数形状非常陡时使用常用对数变换更合理。 

邮件撳数据的这两种转换方式在图 4-4 中均有展示。在阁中，我们看到训练数据中用户发 
送邮件最的指数形状非常陡峭，通过分别采用自然对数和常用对数变换后，曲线明显平 
缓丫。我们已经知道，常用对数变换的程度£大，而&然对数变换则仍然保留了一些差 
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图 4-4: 接收邮件鼉分别为绝对值、 In 变换值以及 loglO 变换值的区别 


注意： 忠要强调的一点是，就像我们这里所做的，以及在第 2 ti ? •细阐 释过的-样，在处理任 W 帆 
器学习问题时，对数据进行可视化分析绝对是-个好办法。我们想知逬特征集合的各个观 
测怵之 M 的关系如何，以便能做出最 好的颅 测。通常达到这一 H 的最好的办法便婭对数据 
可视 化。 


from.weight <- transform ( from . weight , Weight = log(Freq + l )) 

敁后，冋想一下，在初等数学中学过的指数规则告诉我们，任何值的0次幂都是1。在使 
用对数变换计算权重时记住这一点非常重要，因为观测值为丨时，就会变换成0。在计 
算权重时这会出现问题，因为用0乘以其他特征权重值时会得到0。为了避免出现这种情 
况，我们在对数变换前总是对任何观测值都加1。 


注意： 实脉上 R 中的函数 loglp 就是计算 log ( l + p ) 的，但是本着学习就要知其所以然的 H 的，我们 
还是“手工”加1。 


异性，可以帮助我们从这份训练数据屮得到有意义的权重值。因此，我们用自然对数来 
定义邮件量这个特征的权重。 


_ tt 萤匀班 
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进行这样的尺度缩放，并不会影响结果，而且还会保证所有权$大千0。在这里，我们 
使用了 log 函数的默认底数，即自然对数。 


箐告： 出 f 我们的目的，绝不允 I 午特征集合中出现值为 0 的观测 id 诂，闪为这足在统 il • 数 M ;。 如果 
装 - 些特征不存在观测记录，那么它也不会出现在我们的训练染中。但足，在某呰情况下， 
这也不对，还是可能会在数据中出现值为 0 的观测记录。 0 的对数是尤定义的， rfii 如果非要 
用 RiU • 算的话，会返 N —个特殊的值 -Inf ( 负无穷）。如*:数据中出现 -Inf 值常常会破坏 
整个结*。 


邮件线程活跃度的权重计算 

从邮件中抽取的第二个特征就足线程行为。之前已经解释过，我们给这些用户构达排序 
算法，却没法知道用户是否回复过邮件。不过， " r 以按照线程对邮件进行分组，然后 
衡歐每个线程开始之后的活跃程度。再强调一次，构途这个特征集的假设还是时间很歌 
要，干是，在短时间内有更多邮件发送的线程就更活跃，也 因此吏 重要。 

在我们这份数据中，邮件并没有明确的线程 id ， 但是在训练数据中 m 别线程的-种逻辑 
"式是查找具有共同主题的邮件。例如，如采发现一个主题以 “ re : ” 开始，那么我们就 
知道这是某个线程的一部分。当发现像这样的邮件时，可以 w 找一下在这个线程里 ifti 的 
其他邮件，并测量其活跃度。 


find.threads <- function(email.df) { 

response.threads <- strsplit(email.df$Subject, "re: H ) 

is.thread <- sapply(response.threads, function(subj) ifelse(subj[l] =* TRUE, 

FALSE)) 

threads <- response.threads[is.thread] 
senders <- email.df$From.EMail[is.thread] 

threads <- sapply(threads > function(t) paste(t[2:length(t)], collapse="re: M )) 
return(cbind(senders,threads)) 

} 

t hreads. mat rix<-find, threads (priority, train) 


这正足闲数 find . threads 要对训练数据所做的处理。如果把训练数据中的右题都用 
“ re :” 进行拆分，那么可以通过寻找拆分后第一个元紊是空字符的字符串向 k 来找到各 
个线程。-旦知道了训练数据中哪些是线程的一部分，就可以从这些线程中柚取出主题 
和发件人。这样，结果矩阵中就包含训练数据中的所有发件人和初始线程的主题。 


email.thread <- function(threads.matrix) { 
senders <- threads.matrix[, l] 
senders.freq <- table(senders) 

senders.matrix <- cbind(names(senders.freq), senders.freq, log(senders.freq + 1)) 
senders.df <- data.frame(senders.matrix, stringsAsFactors=FALSE) 
row.names(senders.df) <- l:nrow(senders.df) 
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names(senders.df) <- c("From.EMail", "Freq", "Weight") 
senders.df$Freq <- as.numeric(senders.df$Freq) 
senders.df$Weight <- as.numeric(senders.df$Weight) 
return(senders.df) 


senders.df <- email.thread(threads.matrix) 

接下来，根据线程中最活跃的发件人来陚予权重，该权重会增加在整个训练数据 集上得 
到的基 F 邮件数量的权重，不过现在只关注出现在 threads . matrix 中的发件人。 email , 
thread 函数的输人是 threads . matrix ， 然后生成第二个基于数1:的权£。这和前一节所 
做的事情很类似， +同的 是这里要用到 table 函数统计发件人在线程中出现的颊率。这 
一做法仅仅是为了展示 R 中完成同样计算的不同方法，这里是在矩阵上完成，而不是 
用 plyr 在数据框上完成。这个函数的大部分工作都是在对数据框 senders . df 做些琐碎处 
理，不过，请注意这里再一次用到了自然对数来賦予权重。 

作为线程特征最后一个组成部分的权敎，我们会基于已知的活跃线程来构建。我们已经 
m 別出训练数据中所有的线程，并且基子线程中的词项计算出了一个权重。现在我们想 
利用这个知识，给已知的活跃线程追加一个权重。这里存在一个假设，如果这个线程已 
知，那么我们认为用户会觉得这些更活跃线程更重要一些。 

get.threads <- function(threads.matrix, email.df) { 
threads <- unique(threads.matrix[, 2]) 

thread.counts <- lapply(threads, function(t) thread.counts(t, email.df)) 
thread.matrix <- do.call(rbind, thread.counts) 
retum(cbind(threads, thread.matrix)) 


thread.counts <- function(thread, email.df) { 

thread.times <- email.df$Date[which(email.df$Subject thread 

I email.df$Subject =* paste(**re:thread))] 

freq <- length(thread.times) 

min.time <- min(thread.times) 

max.time <- max(thread.times) 

time.span <- as.numeric(difftime(max.time, min.time, units="secs M )) 
if(freq < 2) { 

return(c(NA,NA,NA)) 

} 

else { 

trans.weight <- freq / time.span 

log.trans.weight <- 10 + log(trans.weight, base=l0) 

return(c(freq,time.span, log.trans.weight)) 


thread.weights <• get.threads(threads.matrix, priority.train) 
thread.weights <- data.frame(thread.weights, stringsAsFactors=FALSE) 
names(thread.weights) <- c("ThreadFreq","Response*',"Weight") 
thread.weightsSFreq <- as.numeric(thread.weights$Freq) 
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thread.weightsSResponse <- as.numeric(thread.weightsSResponse) 

thread.weights$Weight <- as.numeric(thread.weights$Weight) 

thread.weights <- subset(thread.weights, is.na(thread.weights$Freq) == FALSE) 


我们要使用刚刚创建的 thread s . matrix 在训练数据中査找每-个线程中出现的所有邮 
件。先创逮 get . threadsrt 数，其参数是 threads . matrix 和训练数据。我们用 unique 命令 
创迮了一个包含数据中所有线程主题的向量。现在，要利用这个信息并衡最每一个线程 
的活跃度。 

这个任务由 thread.counts 函数完成。利用线程主题和训练数据作为参数,收集 thread , 
times 向中线程所匹配的所有邮件 H 期和时间戳。可以计算出在训练数据中这个线程接 
收了多少封邮件，方法就是计算 thread.times 的长度。 

谅后，计算活跃度，需要知道这个线程在训练数据中存在了多长时间。虽然不那么明 
敁，但是数据两端都存在一定的截断。也就是说，某个线程可能在开始收集训练数据之 
前或者在数据收集完成之后还收到了邮件。对此我们无能为力，因此就给每个线程设？？ 
了一个燉近时间和婊远时间，以此来计算线程的时间跨度。函数 difftime 会用指定单位 
1十算两个 POS1X 对象的相隔时间。在我们的案例中，要用的是最小时间单位“秒”。 

由干存在这个时间截断，可能会在一个线程中只有一封邮件的记录。这种情况可能是在 
训练数据刚开始收集时线程正好结束，也可能是数据收集结朿之际线程才开始。在基干 
这个时间段上的线程活跃度计 算权® 之前，我们必须把这些只有一封邮件的线程铋 i 己出 
来。 thread.counts 函数未尾的 if 语句就是在做这件事，如果当前线程只有一封邮件它就 
返回一个全是 NA 元素的向最。稍后，我们会利用这个向量来把这些只有一封邮件的线程 
从活跃度权 t 数据中剔除。 

最后-步就是为所有我们能测1：的邮件权重。首先，计算线程在单位时间内邮 
件的到达率（每秒收到邮件数的均 值）， 所以，如果一个线程内每秒发一封邮件，那么 
这个结果就是1。当然，实际中这个值要比1小 得多： 每个线程收到邮件的平均数大约足 
4.5,平均间隔时间足31 000秒 （8.5 小 时）。 在这个尺度下，大多数到达率都是很小的小 
数。还是老办法，用 log 转换这些值，但是因为要转换的是小数，所以会得到负值。我们 
不能在权重计算中引人负的权重，因此不得不进行一项附加变换，正式的叫法是仿射变 
换 (affine transformation) 。 

仿射变换就是在 空间里 对点进行简单的线性移动。想象一下，在一张坐标纸上画一个正 
方形，如果你想移动正方形到纸上另一个位置，可以定义一个函数，把正方形上的所有 
点沿着 I 卩1 一个方向移动，这就是仿射变换。要让 log . trans . weight 得到正权重，我们简 
单地给所有转换值加10。这会保证所有的值都是一个合适的正值。 

译注 5: 此处指频次大于丨的线秸邮件。 


排序： 智能收件箱 I 117 



一旦用 get . threads 和 thread . counts 生成丫权重数据，和从前一样，给 thread.weights 
数据框做一些琐碎的处理， H 的是与其他权重数据框中的名称保持一致。在最后一步 
里，我们用 subset 函数移除了所有指向只有一封邮件的线程记录（即被时间截断的线 
程）的行。我们现在用 head ( thread . weights ) 检査一下结果。 


head(thread.weights) 



Thread 

Freq 

Response 

Weight 

1 

please help a newbie compile mplayer : -) 

4 

42309 

5.975627 

2 

prob. w/ install/uninstall 

4 

23745 

6.226488 

3 

http://apt.nixia.no/ 

10 

265303 

5.576258 

4 

problems with 'apt-get -f install' 

3 

55960 

5.729244 

S 

problems with apt update 

2 

6347 

6.498461 

6 

about apt, kernel updates and dist-upgrade 

5 

240238 

5.318328 


前面两行就是线程活跃度权 *1 十算策略的&好范例。这两个线程屮的邮件数量都是4, 
然而线程 prob . w / in stall/un in stall 在这份数据中的持续时间差不多是另一个的一 
半。根据我们的假设，这个线程的邮件£加重要一些，因此具有更髙的权重。在这个案 
例屮，我们赋这个线程中邮件的权隶是线程 please help a newbie compile mplayer 
: 中邮件的 1.04 倍。这在你看来可能合理，也可能+合理，这也是把设计和应用策略通 
用化过程中存在的问题。在这个案例中，我们的用户可能不会用这种方式来 M 化事物， 
rffiJt •他人 " I * 能会， m 是因为我们想寻求一个通用解决方案，所以必须接受假设的结果。 

term.counts <- function(term.vec, control) { 
vec.corpus <- Corpus(VectorSource(term.vec)) 
vec.tdm <- TermDocumentMatrix(vec.corpus, control=control) 
return(rowSums(as.matrix(vec.tdm))) 


thread.terms <- term.counts(thread.weights$Thread, 
control=list(stopwords=stopwords())) 
thread.terms <- names(thread.terms) 

term.weights <- sapply(thread.terms, 

function(t) mean(thread.weights$Weight[grepl(t, thread. 
weights$Thread,fixed=TRUE)])) 

term.weights<-data.frame(list(Term=names(term.weights), Weight=term.weights), 
stringsAsFactors=FALSE, row.names=l:length(term.weights)) 

最后一份通过线程产生的权数据就是这些线程中卨颊词项的权重。和第3章所做的 
事类似，我们创建一个通用涵数 term . counts , 以一个项向量和 TermDocument Matrix 
( TDM , 词项文档矩阵）的选项列表为输入，产生词项的 TDM ， 并且抽取所有线程中 
的项频次。创建这份权重数据的假 设是： 出现在活跃线程邮件主题中的髙频 W 比低频 
W 和出现在不活跃线程中的词项电重要。我们在努力为排序算法加人尽可能多的信息， 
只为构迖出较细粒度的邮件分层。为此，就不能只盯着早已活跃的线程，而是也想对那 
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些“貌似”先前活跃过的线程赋予一定权®，词项加权 (term weighting ) 便是2成这件 
事的方式之一。 


msg.terms <- term.counts(priority.train$Message, 
control=list(stopwords=stopwords(), 
removePunctuation=TRUE, removeNumbers=TRUE)) 
msg.weights <- data.frame(list(Term=names(msg.terms), 

Weight=log(msg.terms, base*10)), stringsAsFactors=FALSE, 
row.names=l:length(msg.terms)) 

msg.weights <- subset(msg.weights. Weight > 0) 

最后一份权重数据的产生要基于训练数据的所有邮件中的项频数。要进行 的处理 过稅 
和我们在垃圾分类案例中所做的统计词频几乎相同，然而，这里要取词颊的对数变换值 
作为词的权甫值。因为有线程主题的词项频率权重，所以在数据框 msg.weights 中存在 
一个隐含的 假设： 和我们已读邮件相似的新邮件比那些完全陌生的邮件更 £ 要。 

现在，我们已有五项权重数据框，可以用 f 排序了！这些权重数据分 別是： from, 
weight ( 社交特征）、 senders.df ( 发件人在线程内的活跃度）、 thread.weights 
程的活跃度）、 term.weights ( 活跃线程的词项）以及 msg.weights ( 所有邮件 • 共打 W 
项）。现在可以在训练数据上运行排序算法，找到一个可用千标记邮件是否歌要的 W 值。 

训练和测试排序算法 

为了给训练数据中每一封邮件产生一个优先等级，必须将前几节生成的所有权有相乘。 
这意味着对训练数据中每一封邮件都要解析邮件，抽取特征，然后用特征去匹配对应的 
权重数据框并査找其权重值。用这些权敢值的乘枳为每一封邮件产生承个且独一 尤二的 
排序值。下面的 rank.message 函数功能就是输人一封邮件的路径，根据已定义的特征及 
其相应权重产生一个优先级次序。 rank.message 函数依赖 T 很多之前定义的函数以及一 
个新闲数 get.weights, 它在特征还未映射为一个权重值时执行权重查找，即主题和正文 
词项。 

get.weights <- function(search.term, weight.df, term=TRUE) { 
if(length(search.term) > 0) { 
if(term) { 

term.match <- match(names(search.term), weight.df$Term) 

} 

else { 

term.match <- match(search.term, weight.df$Thread) 

} 

match.weights <- weight.df$Weight[which(!is.na(term.match))] 
if(length(match.weights) > l) { 
return ⑴ 

} 

else { 
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return(fnean(match. weights)) 


else { 

return(l) 


首先定义 get . weights 函数，这个函数有三个输人 参数： 要査找的问项（一个字符 
串），所要杳找的对象——权重数据框，以及词项 ( term ) 的一个布尔值。最后一个参 
数告诉应用程序要査找的数据框是间项数据框还是线程数据框。因为 thread . weights 数 
据框的列标签存在区别，所以我们会视上述两种为完全不同的查找，需要标 m 这个区 
别。处理逻辑相当直接，因为使用了 match 函数在 权重数 据框中査找与 search . term 相同 
的元紊，并返回其权重值。这里尤其需要注意函数如何处理査找失畋的情况。 

片先，为保险起见，检査输人 get . weights 的待杏找词项长度是否大干0。这-步和在解 
析邮件数据时确保邮件真的包含主题行所做的工作是一样的类型。如果输人是一个无效 
的待査找词项，则简单地返回1 (初等数学告诉我们，这不会影响下一步的乘枳汁兑， 
因为是乘以 1) 。接下来， match 函数会为搜索向最中所有没有匹 Sil 上 search . term 的元素 
返 lelNAfft 。 因此，我们抽取那些匹配上的元素，即返回非 NA 值元桌的权 ® 值。如果没有 
一个匹 fid 上，那么返回向景 term . match 的元素全是 NAfft ， 在这种情况 K ， match.weights 
的长度为0。因此，我们为这种情况增加一步检査，如果出现这种倩况，还是返回丨。如 
果 PCJd 了若千权重值，那么就把这些权重值的均值作为结果返回。 


rank.message <- function(path) { 
msg <- parse.email(path) 

# Weighting based on message author 

# First is just on the total frequency 

from <- ifelse(length(which(from.weight$From.EMail == msg[2])) > 0, 
from.weight$Weight[which(from.weight$From.EMail == msg[2])], l) 

# Second is based on senders in threads, and threads themselves 
thread.from <- ifelse(length(which(senders.df$From.EMail == msg[2]))>0, 

senders.df$Weight[which(senders.df$From.EMail == msg[2])], l) 

subj <- strsplit(tolower(msg[3]), "re:") 

is.thread <- ifelse(subj[[l]][l] == TRUE, FALSE) 

if(is.thread) { 

activity <- get,weights(subj[[l]][2], thread.weights, term=FALSE) 

} 

else { 

activity <- 1 


林 Next, weight based on terms 
# Weight based on terms in threads 
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thread.terms<-term.counts(msg[3], control=list(stopwords=stopwords())) 
thread.terms.weights <- get.weights(thread.terms, term.weights) 


tf Weight based terms in all messages 

msg.terms <- term.counts(msg[4], control=list(stopwords=stopwords(), 
removePunctuation=TRUE, removeNumbers=TRUE)) 
msg.weights <- get.weights(msg.terms, msg.weights) 

# Calculate rank by interacting all weights 
rank <- prod(from, thread.from, activity, 
thread.terms.weights, msg.weights) 

return(c(msg[l], msg[2], msg[3], rank)) 

} 

在为从数据集中每一封邮件抽取的特征赋权重时， rank . message 闲数使用的规则和 get . 
weights 函数很类似。泞先，它调用 parse . email 函数抽取我们感兴趣的四个特征。然 
后，用一系列的 if - then 语句判定抽取的特征是否出现在某个用干排序的权重数据框中， 
件给特征陚上相应的权重。 from 和 thread . from 利用社交特征査找发件人地址的权承。 
请注 总，在这两种情况中，如果 ifelse 没匹配到任何权重，那么就返冋丨。这个方法和 
get . weights 函数是相同的。 

对 F •线程权重和词项权重，我们做了一些内部文本解析工作。对干线程特征，豸先检査 
待排序邮件足否厲 亍某个 线程，这个过程和训练阶段没什么不同。如果属于某个线程， 
那么仵询其活跃度排序，否则陚值为1。对基干词项的权重，我们用 term . counts 函数从 
邮件特征中获取相关词项，并获取相应的权重。在最后一步，我们把査到的所有权 fi 值 
传给函数 prod ， 产生 frank (优先级排序）值。 rank . message 函数返回一个含有邮件 n 
期/时间、发件人地址、主题和优先级排序值的向量。 

train.paths <- priority.df$Path[l:(round(nrow(priority.df) / 2))] 

test.paths <- priority.df$Path[((round(nrow(priority.df) / 2)) + l):nrow(priority.df)] 

train.ranks <- lapply(train.paths, rank.message) 
train.ranks.matrix <- do.call(rbind, train.ranks) 

train.ranks.matrix <- cbind(train.paths, train.ranks.matrix, "TRAINING") 
train.ranks.df <- data.frame(train.ranks.matrix, stringsAsFactors=FALSE) 
names(train.ranks.df) <- c("Message", "Date", "From”, M Subj H , "Rank","Type") 
train.ranks.df$Rank <- as.numeric(train.ranks.df$Rank) 

priority.threshold <- median(train.ranks.dfSRank) 

train.ranks.df$Priority<-ifelse(train.ranks.dfSRank >= priority.threshold, 1, 0) 

准饬启动排序算法了！在处理之前，我们要把数据按照时间拆分成两部分。第一部分就 
足训练数据，命名为 train . paths 。 用这里面的数据产生排序数据，从而确定-个“优 
先”邮件的 W 值。一旦得到了 阖值， 就可以在 test . paths 中的邮件上运行排序算法，判 
定哪些邮件是优先的邮件，并乱对优先的邮件排定顺序。接下来，在向 Mtrain.paths 
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上应用 rank . message 函数，产生一个向 S : 列表，其中包含每一封邮件的特征和优先级排 
序值。现在，我们来完成些琐碎 T 作，把向 ft 列表转换成一个矩阵，最终把这个矩阵转 
换成带有列名的数据框以及格式正确的向釐。 


齊告：你岈能注意到，当执行 train.ranks <• lapply(train.paths, rank.message) 这一行时 R 抛 
出了一个焚告。这没什么问题，只不过是我们构建排序算法的方式导致的结果。如果你想 
关掠焚告， 以在 suppressWarnings 函数屮调用 lappy 。 


我们现在进行关键的一步，计算优先邮件的阈值。你可以看到，在这个案例中，我们用 
优先级排序值的屮位数作为 W 值。当然，也可以用其他摘要统计董来作为这个 Wffi , 这 
些都在第2章讨论过。因为并没有用到预先告知邮件应如何排序的实例来决定 W 值，所 
以我们所进行的并+是一种标准的有监督学习任务。但是，选择中位数作为 W 値有两条 
原则上的 理由： 第一，如果悱序算法足够好，那么排序结果应该是一个平滑的分布，大 
多数邮件的优先级排序较低，少最邮件优先级悱序较高。我们在寻找“重要的邮件”， 
也就足那呰最独特的，或者说不同于电子邮件里面大众邮件的信息流。这些邮件就是排 
序分布中的合格部分。如果情况就是这样，那些大 T - 屮位数的值就是那些大于典型悱序 
侦的 邮件。推荐优先的邮件在 ft 观上的表现 就是： 挑选的邮件优先级排序值应该大于一 
封典喂邮件的排序值。 

第二，我们知道测试数据会包含这样的 邮件： 其特征在训练数据中完全没出现过。新邮 
件源源不断地流入，但是在我们当前这样的设定下，没办法更新排序算法。既如此， 
也 I 午我们想设计一种倾向于包容性而非排他性的优先级规则。如果不这样做，可能会丢 
掉只叫配 f 部分特征的邮件。作为最后一步，我们给 train . ranks . df 加 f 一个 Priority 
列， Priority 是二值向董，用干指示邮件是否会作为优先邮件被排序算法推荐。 

图4 5展示了在训练数据 h 计算的排序密度佔计。垂直虚线便是中位数阈值，大约是24。 
你看到了吧?排序结果是很明显的重尾分布 ( heavy - tailed ) ,这表明我们构建的排序算 
法在训练数据上表现不错。我们 也看到 中位数 W 值非常具有包容性，大部分斜+向右下 
倾斜位置处的邮件都被判定为优先邮件。再强调一次，这是有意为之的。用分布的标准 
差作为_值就没有这么好的包容性，我们可以用 sd ( train . ranks . df $ Rank ) 计算标准差。 
标准差大约足90,这几乎把尾部之外所有的邮件都排除在优先邮件之外了。 

现在计»测试数据集中所有邮件的优先级排序值。这个过程和计算训练数据的优先级排 
序值是一模一样的，为了节省篇幅就不在这里贴出代码了。要看代码，请査看本章目录 
下的 code / priority _ inbox . R 文件中从第436行开始的代码。计算完测试数据的优先级排 
序值之后，就可以对比测试数据和训练数据，看看排序算法对新邮件排序效果如何。 


图 4-6 在图 4-5 的基础上*加了测试数据的排序密度。这个图清楚地说明了排序算法的优 
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劣。泞先，我们注怠到，测试数据的分布尾部密度更高。这意味着有更多邮件的优先级 
排序值+高。此外，测试数据的密度估计没有训练数据那样平滑，这说明测试数椐包含 
了很多没出现在训练数椐中的特征。丙为这些特征没有在训练数据中得到匹配，干是排 
序算法就忽略这些特征了。 

尽管仍然存在问题，但是由于我们采用了包容性较强的阖值来判定优先邮件，所以结果 
还不至 F 太糟。请注意，测试数据中处 f •阖值右侧的密度数量仍然比较合理。这说明我 
们的算法仍然能从测试数据中找到電要的邮件來推荐。最后一步，我们要检査算法到底 
把哪些邮汁•放在前面了（表 4-1) 。 

菁告：构建这样的排序 诗法， 本质上尤法知道其好坏。在整个案例过程屮，我们对每个特征都有 
假设，并 II 试阉直观地进行合理解释。然而，我们永远也不可能知逬这个排 序兑法 表现到 
底如何，因为不可能去找这些邮件的收件人洵 问： 排序好不好？合不合押 .？ 在分类那个案 
例中，因为我们知道训练数据和测试数据中每封邮件的签，所以能通过构 达混淆 矩阵明 
确评估分类效果到底如何。在这个案例中没法这样做，但是吋以通过査看结果来推断排序 
兗法表现好坏。这也正是这个案例和准的有监督学习的区別之一。 


表 4-1 展示了测 K 数据中被排序算法标注为优先邮件的最近40封邮件。这个表格揆拟的 
足： 假如使用了这个排序算法对收件箱排序，你可能在收件箱看到的界面，并且附上了 
毎封邮件的优先级排序愤。 m 愿你看得惯这些有点古怪或者有争议的主题，我们会对这 
些结果进行分析，看看排序算法怎么对邮件分组。 

这个结采燉鼓舞人心的地方就是排序兑法按照线程分组的效果非常好。你可以在这个表 
中找到这些例子，即来白间一个线程的邮件都被标记为优先邮件，而 a 被分到 m —个 m 
里。另外，排序算法似乎给高频发件人的邮件打了相对卨的优先级分数，比如比较突出 
的发件人和最后，也许也足域鼓舞我 
们的，排序算法把训练数据中没出现的邮件列为优先邮件了。 囀 实上，测试数据屮被标 
id 为优先邮件的85个线程中只有12个是训练数据的延续（约14%) 。 这表明我们的排序 
W 法能把训练数据中的知识应用到测试数据的新线程中，并且无需史新就做出推荐。这 
太棒了! 

在这一章，我们所探 U 的内容从只有一种元素的特征集 1 ^ 6 拓展到有许多种特征的较复 
杂模型。实 阮上， 我们完成了一个相当困难的任务，这就是在只有邮件一半事务 7 的 
前提下，设 it •一 个邮件的排序模型。依据社交、线程活跃度以及共同词项，我们明确 r 
四种感兴趣的特征，产生五个权重数据框来完成排序。我们刚才已经査肴了结果，尽管 
很难明确地测试这样结果的效果如何，但是仍然很鼓舞人心。 

译注 6: 此处指第 3 章仅有词项一种特征。 

译注 7: 此外指仅有接收邮件的信息，而没有发送邮件的信息。 
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图 4-5: 训练数据权重密度图，并以权重的一个标准差作为优先邮件阈值 
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图 4-6: 测试数据和训练数据的权重密度图 
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表 4-1: 智能收件箱测试结果 


曰期 

___1 

来自 

主题 

优先级分值 

2002/12/1 21:01 

geege@barrera.org 

RE:Mercedes-Benz G55 

31.97963566 

2002/11/25 19:34 

deafbox@hotmail.com 

RE:Men etToil 

34.7967621 

2002/10/1013:14 

yyyy@spamassassin.taint.org 

RE:[SAdev]fully-public corpus of mail available 

53.94872021 

2002/10/921:47 

quinlan@pathname.com 

RE:[SAdev] fully-public corpus of mail available 

29.48898756 

2002/10/918:23 

yyyy@spamassassin.taint.org 

RE:[SAtalk] RE:fully-public corpus of mail available 

44.17153847 

2002/10/913:30 

haldevore@acm.org 

RE:From 

25.02939914 

2002/10/912:58 

jamesr@best.com 

RE:The Disappearing Alliance 

26.54528998 

2002/10/8 23:42 

harri.haataja@cs.helsinki.fi 

REJZoot apt/openssh & new DVD playing doc 

25.01634554 

2002/10/819:17 

tomwhore@slack.net 

1 

RE:The Disappearing Alliance 

56.93995821 

2002/10/817:02 

johnhall@evergo.net 

RE:The Disappearing Alliance 

31.50297057 

2002/10/8 15:26 

rah@shipwright.com 

RE:The absurdities of life. 

31.12476712 

2002/10/812:18 

timc@2ubh.com 

[zzzzteana] Lioness adopts fifth antelope 

24.22364367 

2002/10/812:15 

timc@2ubh.com 

[zzzzteana] And deliver us from weevil 

24.41118141 

2002/10/812:14 

timc@2ubh.com 

[zzzzteana] Bashing the bishop 

24.18504926 

2002/10/7 21:39 

geege@barrera.org 

RE:The absurdities of life. 

34.44120977 

2002/10/7 20:18 

yyyy@spamassassin.taint.org 

RE:[SAtalk] RE:AWL bug in 2.42? 

46.70665631 

2002/10/7 16:48 

owen@permafrost.net 

RE:erratum [RE:no matter...] & errors 

27.09867727 

2002/10/7 16:45 

jamesr@best.com 

RE:erratum [RE:no matter...] & errors 

27.16350661 

2002/10/7 15:30 

tomwhore@slack.net 

RE:The absurdities of life. 

47.3282386 

2002/10/7 14:20 

cdale@techmonkeys.net 

RE:The absurdities of life. 

35.11063991 

2002/10/7 14:02 

johnhall@evergo.net 

RE:The absurdities of life. 

28.16690172 

2002/10/6 17:29 

geege@barrera.org 

RE:0ur friends the Palestinians, 

Our servants in government. 

28.05735369 

2002/10/615:24 

geege@barrera.org 

RE:0ur friends the Palestinians, 

Our servants in government. 

27.32604275 

2002/10/6 14:02 

johnhall@evergo.net 

RE:Our friends the Palestinians, 

I Our servants in government. 

27.08788823 

2002/10/6 12:22 

johnhall@evergo.net 

RE:0ur friends the Palestinians, 

Our servants in government. 

26.48367996 

2002/10/610:20 

owen@permafrost.net 

RE:Our friends the Palestinians, 

Our servants in government. 

26.77329071 
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表 4-1: 智能收件箱测试结果（续) 


曰期 

来自 

主题 

优先级分值 

2002/10/6 10:02 

fork_list@hotmail.com 

RE:Our friends the Palestinians, 

29.60084489 



Our servants in government. 


2002/10/6 0:34 

- --^ 

geege@barrera.org 

RErOur friends the Palestinians, 

Our servants in government. 

29.35353465 


在第3$和本章中，你已经经历 r + ii 3 简哏的有监抒学习案例，即垃圾分类以及一个非 
常基本的启发式排序形式。现在你要准备好见 t 只统计学习中的屮流 砥柱：回归。 
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回归 模型： 预测网页访问量 


回归模型简介 

从理论 上讲， 回归模型是一个非常简单的槪念，即用已知的数据集来预测另外一个数据 
集。例如，保险精算师也许想在已知人们吸烟习惯的*础上预测其寿命，气象学家也许 
想使川已知过去每天的温度来颅测明天的温度。一般来说，我们称已知的数据为输人， 
将你想要颅测的数据称为输出。冇时候，人们也会把输入叫做预 测变鼠 或者特征。 

1»1归模犁和分类模型的不同之处在干，回归模型的输出是真正的数卞。比如我们在第3 
章中描述的那些分类问题中，用于区分类型的虚拟变量必须是数字， W 此0代表合法邮 
件，而1代表垃圾邮件。但是这些数字仅仅只是符号，当我们使用虚拟变最的时候，并 
不去研究0或者1的数字性质。在回归模型中，其输出本质的事实就是它的输出足正的 
数字，例如，颀测温度这类目标的范围也许会在50°〜70°。因为预测结果足数字，所以可 
以得出输人和输出之间关系的有力断言，例如， 你也许 能得出这样的结论，当人们每天 
所抽香烟的包数增加一倍时，他们的预计寿命将会减少一半。 

当然，这里存在的问题是，想要做出精确的数值预测和能够实际做出这样 的预测 并不是 
-回事。为了能够做出定 ft 的预测，需要提出一些规则，这些规则能够利用我们可用 
的信息。近200年来，统计学家们提出了各种各样的回 W 算法，这些算法可以用不 N 的 
方式根据输入预测输出。在本章中，我们会讲到最常用的回归 模型： 线性回归 （linear 
regression ) 。 


基准模型 

下面要说的也许有点愚蠢，但是不妨 一听： 对于已有输入信息的使用，可能最简竽的方 
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法就足完全忽略所有输人，然后将计算过去所观测的输出值的均值作为预测结果。在保 
险精 W 师的例子中，我们可以完全忽略一个人的健康记录并且预测其寿命等干人类平均 
寿命。 

对 f 毎种情况都将平均值作为结果并不像看上去那样 幼稚： 如果我们要在不使用代他仟 
何信息的情况下，尽可能做出接近事实的预测，那么将平均输出作为结果是我们可以做 
出 的敁好 预测。 


注意： 这黾没有定义 “ 最好 ” 的含义。说了半天 “ 最好 ” ，却没有明确到底什么是 “ 敁好”，如 
果 这样惹你不商兴了，那么我们保证稍后会给出一个正式的定义。 


在我们 W 论如何做出最好的合理预测之前，假定我们拥有一份数据集，它来源 f •一个虚 
构的保险统计数据库，其中一部分如表 5-1 所示。 

表 5-1: 关于寿命的保险统计数据 


是否吸烟 

死亡年龄 

1 

75 

1 

72 

1 

66 

1 

74 

1 

69 

• • • 

• • • 

0 

66 

0 

80 

0 

! 84 

0 

63 

0 

79 

• • • 

• • • 


面对这个全新的数据集，一个好的想法是根据第2章中的建议，在做仟何正式分析之 
前，先对数据进行一些分析。我们有一列数据和另外一列虚拟的编码因子，因此我们很 
自然地想到画出密度图来比较吸烟者和非吸烟者（画图结果！41图 5-1) 。 


ages <- read.csv('data/longevity.csv') 

ggplot(ages, aes(x = AgeAtDeath, fill = f actor (Smokes))) + 
geom_density() + 
facet_grid(Smokes .) 
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因子（吸烟 ) 








死亡年龄 


图 5-1: 1000人的寿命密度图，以是否吸烟为因子 

从这个寿命密度 阁可以 看出，我们有理由相信吸烟 习惯和 寿命有关系，因为不吸烟的人 
寿命分布中心和吸烟的人相比，向右偏移。换句 W •说，不吸烟的人平均寿命比吸烟的人 
平均寿命长。关于你可以怎样使用人们有关吸烟刃惯的信息来颅测其寿命，我们会给出 
描述，何是在这之前，暂时假装件没有任何这方面的信息。在这种侪况下，无论你要研 
究的新人有什么样的吸烟习惯，你都只需选择一个电独的数字作为你对其寿命的预测。 
那么你应该选择什么样的数字？这个问题并不简单，因为选择哪个数字，取决于你对 
“好的预测”的 if 判标准。有许多合理的方法来定义预测的准确性，但是实际上有一个 
衡量指标在整个统计学的历史中占有统治地位。这个衡量指标叫做平方误差。如果你想 
要预测的是 y 值（真实结果）并且你的假设足 h (你关于 y 值的假设），那么假设的平方误 
差计算很 简黾， 就是 （ y - h ) Q 。 




1 
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之所以要用平方误差来衡 ft 预测的好坏，其中除了有遵循惯例，从而让其他人能够理解 
的固有原因外，还有很多其他的原因。我们现在不去深究这些原因，但是在第7章 U 论 
机器学习中的优化算法时，对于人们用来度 M 误差的各种方法，将 i . t 论这个 M 题稍微豇 
多一点。目前，我们仅试图让你确信一些基本的 东西： 如果使用平方误差作为预测质量 
的衡 M : 指标，那么对人的寿命做出的 ft 好假设（在没有任•于人 的习惯 的附加信息的 
情况下）就是人的寿命均值。 

为 r 使你相信这个结论，让我们看看如果使用其他假设来代替均值的话会发生什么。使 
用上血的寿命数据集， AgeAtDeath (死亡年龄）的均值是72.723,暂时将这个数向 h 取 
整为73。接着我们可以提出这样的问题，“如果假设每个人都活到73岁，那么我们对 T 
上述数据集中的人们的年龄所做出的这个预测到底有多差？” 

可以使用 R 语言来回答这个 M 题，下面的这段代码对数据集中关于每个人的甲方误差进 
行求和，由此计算出平方误差的均值，我们把平方误差的这个均值叫做均方误差 (Mean 
Squared Errer , MSE ) 。 

ages <- read.csv('data/longevity.csv') 
guess <- 73 

with(ages, mean((AgeAtDeath - guess) A 2)) 

#[l] 32.991 

运行上述代码之后我们发现，通过假设已有数据集中每个人的寿命都是73 岁而得 到的均 
方误差是32.991。但是，仅通过这个数字本身，并不足以使你相信，我们使) H 除73之外 
的数字作为假设会得到更差的结果。为了让你相信73是最好的假设，我们需要考虑如米 
使用某 些艽他 的可能假设，得到的结果如 H ? 为了使用 R 语言来 I 十 W 这些其他的纟 
我们在范围为63 〜 83的可能假设序列上做一个循环。 


ages <- read.csv('data/longevity.csv') 

guess.accuracy <- data.frame() 

for (guess in seq(63, 83, by = l)) 

{ 

prediction.error <- with(ages, 

mean((AgeAtDeath - guess) A 2)) 
guess.accuracy <- rbind(guess.accuracy, 

data.frame(Guess = guess, 

Error = prediction.error)) 

} 

ggplot(guess.accuracy, aes(x = Guess, y = Error)) + 
geom_point() + 
geom_line() 
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如图 5-2 所示，使用除73之外的其他任何假设对于我们的数据集来说带来的都是更差的预 
测。这实际上是一个我们可以从数学上证明的一般理论 结果： 为了最小化均方误差，你 
需要使用你的数据集的均值作为预测。这说明了很重要的 一点： 在已有了关于吸烟信息 
的情况 K 做出预测，如果要 衡董其 好坏，那就应该看它比你对每个人都用均值去猜的结 
果提升了多少。 



图 5-2: 均方误差 ( MSE ) 


使用虚拟变量的回归模型 

那么如何使用那些信息呢？在处理更大的问题之前，让我们从一个简单的例子开始。如 
何使用是否吸烟这样的信息来对人的寿命做出更好的假设？ 

-个简单的想法是，先分別估计吸烟的人和不吸烟的人的死亡年龄均值，然后根据你 
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要研究的人是否吸烟，以对应均值作为其预测寿命。这一次，我们将使用均方根误差 
(Root Mean Squared Error ， RMSE ) 来代替均方误差 （ MSE ) ，它在机器学习文献中 
更加常见。 

卜而 足将吸烟的人和不吸烟的人分成单独建揆的两组之后，使用 R 语言计算均方根误差 
( RMSE ) 的一种方法（结果见表 5-2) 。 

ages <- read.csv('data/longevity.csv') 

constant.guess <- with(ages, mean(AgeAtDeath)) 
with(ages, sqrt(mean((AgeAtDeath - constant.guess) A 2))) 

smokers.guess <- with(subset(ages. Smokes l), 

mean(AgeAtDeath)) 

non.smokers.guess <- with(subset(ages. Smokes =* 0), 

mean(AgeAtDeath)) 

ages <- transform(ages, 

NewPrediction * ifelse(Smokes == 0, 

non.smokers.guess, 
smokers.guess)) 

with(ages, sqrt(mean((AgeAtDeath - NewPrediction) A 2))) 


表 5-2: 使用了更多信息之后的预测误差 


信息 

平均平方根误差 （ RMSE ) 

不包含吸烟信息的预测误差 

5.737096 

包含吸烟信息的预测误差 

5.148622 


通过观察得到的均方根误差 （ RMSE ) ,可以看到，在给我们研究的人群引入了豇多信 
息之后，所做出的预测确实更 好了： 当引入关于吸烟习惯的信息之后，在 M 测人群寿命 
时的 M 测误差减少 HO %。 一般来说，每当我们有 f 可以将数据点分成两种类 型的二 元 
区分性质——假设这些二元 K 分性和我们尝试预测的结果相关，我们都能得到比仅仪使 
用均 值吏好 的预测结果。简争二元区分性的例 子有： 男人和女人，美 W 政治屮的 W 主党 
人和共和党人。 


W 此我们现在有了将虚拟变 M 整合进 预测的 机制。但是数据中那些关于预测对象的更丰 
宫的信息，该如何使用呢？关于“吏加丰富”，我们的意思是指两点：第一点，我们 
想要知道如何使用那些不是二元区分性的输人，如身高和体重这样的连续型 数值： 第二 
点，我们想要知道如 M —次使用多重信息源以提升预测。在前面的保险精算师例/•中， 
假设已 知： a ) 某个人是否吸烟； b ) 他父母的死亡年龄。我 们的莨 觉是，拥有这两个不 
的信息源，应该比使用单个信息源能够揭示更多东西。 

但是，把已有的所有信息都用起来，并不是一个简单的事情。在实践中，我们需要做出 
* 些简化问题的假设以使得问题圆满解决。我们将要描述的假设是那些作为线性 回归模 
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型的基础的假设，线性回归模型是我们在本章中唯一描述的一种 W 旳模型。仅仅使用线 
性回归模型，实际上比可能看上去要受到更少的约束，因为回归模型的实际应用中90% 
使用的都是线性冋归模型，并且只需要花很少的工作董就可以将 K 修改成形式吏加复杂 
精练的回归模型。 

线性回归简介 

当使用线性回归模型预测输出结果时，所做的最大的两个假设如下。 


寸分性 /可加性 

如果有多份 信息可 能影响我们的假设，那么通过累加每一份信总的影响来产生我们 
的假设，就像单独使用每份信息时一样。例如，如果酗洒者比不酗酒者少活1年， 
并且吸烟者比不吸烟者少活5年，那么一个吸烟的酗酒者应该会比既不吸烟也不酗 
酒的人少活 6(1+5) 年。这种假设在事情同时发生时将它们的单独影响累加到一起， 
是一个很大的假设，但是这是很多回归模型应用的不错起点。后面将 讲解相 互作用 
的槪念，这便是线性回归模型的可分性，比如说，你知道如果你吸烟，那 么酗酒 就 
会让情况变得更糟糕。 


电调性/线性 

当改变一个输入值总是使得预测的输出结果增加或者减少时，这个模型足单 调的。 
例如，如果你使用身髙作为输入值预测体重，并 R 模型是单调的，那么当前的预测 
是每当某些人的身高增加，他们的体重将会增加。单调性是个很强的假设，因为你 
可以想出很多输出结果随着输入增大而增加一点点，然后突然开始减少的例子 ， m 
是跟线性回归算法中的线性假设相比，单调性还不算一个特别强的假设。线性是- 
个具有非常简单意义的技术 术语： 如果你在一个散点图中画出输人和输出结果，你 
应该会看到一条将输人和输出结果联系起来的直线，而不是某种更复杂的形状，如 
曲线或者波浪线。对于不习惯形象思维的人来说可以这样来比喻， 线性怠 味着每 
当改变一个单位的输入，输出结果总是增加 N 个单位或者输出结果总是减少 N 个单 
位。每一个线性模型都是单调的，但是曲线可以在非线性的情况下也是单调的。基 
于这个原因，线性比单调性具有更强的约束性。 


注意： 通过观察图5-3,我们可以清楚地明白此前所说的直线、曲线和波浪线足什么意思。曲线和 
直线都是单调的，但是波浪线是非单调的，因为它时而上升时而 卜降。 

仅当数据的输入输出关系图看起来像是直线时才叫做标准线性 NW 。 实际上可能也会用线 
性回归去拟合曲线或波浪线，但那是第6章才会讲到的进阶主题。 
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图 5-3: 曲线、直线和波浪线 


将可加性假设和线性假设牢 i 己在心中，让我们开始完成一个简单的线性 NN 模型的例 
子。 洱一次 回到前面案例中的身高和体重数据集上，以此展示如何在这个情境中使用线 
性回归模犁。在图 5-4 中，吋以看到之前已经画过多次的散点图。对绘图代码稍作改动， 
我们就能看到线性回归模型生成的那条直线，可以凭这条直线来用身髙预测体®，如 
图 5-5 所示。只需在调用 geom _ smooth 函数时指明要用 lm 方法即可，其中 lm 方法已经实现 
了 “线性模型”。 
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图 5-4: 体重相对身高的散点图 

library('ggplot2 , ) 

heights.weights <- read.csv('data/Ol_heights_weights_genders.csv', 

header =* TRUE, 
sep * .,•) 

ggplot(heights.weights, aes(x = Height, y = Weight)) + 
geom_point() + 
geomsmooth(method = •lm , ) 
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图 5-5: 增加了回归直线后体重相对身高的散点图 


从 I 冬 15-5 应该可以看出，通过这条直线，在已知一个人身高的前提下去预测其体重会取得 
仆常好的效果。例如，我们看着这条直线会说，应该预测某个身卨是60英寸的人的体 S : 
为105磅，汴 R 应该颅测某个身高为75英、 j •的人体重为225磅。因此，使用一条直线来做 
出预测足-个明智的选择，这一结论看上去有理由被人们接受。于是，我们需要回答的 
问题变 成了： “如何找到用 r •定义在这幅图中看到的直线的数字？”这正是 R 语&作为 
一 f j 机器学>】语言真正揸长的地方： R 语言中一个称为 lm 的简单函数将会为我们完成所 
有这些工作。为了使用 lm ， 我们需要使用〜操作符指明一个 W 归公式。在这个例子中， 
需要从身高来预测体重，因此我们的公式写作 Weight ~ Hight 。 如果我们将要做出的预测 
是相反的方向，应该将公式写成 Hight 〜 Weight 。 如果你要问这些公式怎么读，我个人喜 
欢把 Hight 〜 Weight 读作“身卨关于体重的闲数”。除了关干回归模型的详细描述之外， 
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我们还需要告诉 R 语言使用的数据存放在哪里。如果你的回归模型中的变量都是全局变 
歆，你可以忽略这一点，但是 R 语言社区并不赞成使用那一类全局变量。 


警告： 在 Rl 吾言中，存放全局变 S 是一种非常不 " J •取的行为，因为这样很容易就忘记了被加载到内 
存的有哪些数据。这样做会在编码过程中引起意想不到的后果，因为这样很容易失去对数 
据进出内存的记录信息。更进一步说，这样降低了代码的町 S 用性。如果全局变量没有在 
代码中显式地定义，某些不太熟悉数据加栽过程的人也许会遗漏-些东西，并目.由干缺少 
某些数据集或变1:而产生代码运行异常的后果。 


对你来说，最好使用 data 参数 S . 式地指定数据源。把这些综合在一起，我们用如下方式 
运行一个线性回归 程序： 

fitted.regression <- lm(Weight ~ Height, 

data = heights.weights) 

一旦运行了对 lm 函数的调用，就可以通过调用 coef 函数来得到回归直线的截距， coef 函 
数返回将输入和输出结果联系在一起的线性模型的系数。之所以强调“线性模型”，是 
因为回归模型可以在超过二维中运行。在二维中，拟合的是直线（因此“线性”就是指 
这部分），但是在三维中拟合的是平面，并且在超过三维的情况下，拟合的是超平面。 


注意： 如果你对那些术语没感觉，其实直观感觉也 简单： 一个平面在二维空间中就是一条直线， 
在三维空间中就是一个平而，在超过三维的空间里，它就是所谓的超平面。如果你还不是 
很懂,建议阅读 《 Flatland 》[ Abb 92] 0 


coef(fitted.regression) 

^(Intercept) Height 
#- 350.737192 7.717288 

从某种总义上来说，理解了这个输出就意味着理解了线性回归模型。想要了解 coef 输出 
的意义，&好的办法是显式地把输出所隐含的关系写 出来： 


intercept <- coef(fitted.regression)[l] 
slope <- coef(fitted.regression)[2] 

# predicted.weight <- intercept + slope * observed.height 

# predicted.weight == -350.737192 + 7.717288 * observed.height 

这也就是说，每当某个人的身高增加一英寸，就会导致他的体重增加 7.7 镑。这样的关系 
让我们觉得相当合理。相比之下，截距就有点奇怪了，因为它告诉你一个身高为0英寸 
的人应该有多重。根据 R 语言程序的结果，这样的人应该重350镑。如果你做一些代数运 
算，就能推断出在这个预测算法中，一个人至少要有45英寸身高，才能显示出其体重0 
镑。简言之，我们的回归模型对干儿童或者身高特别矮的成年人来说并不是太适用^ 
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这实阽上是线性回归模型的一般性系统 问题： 当输入数据偏离既有输人观测数据时，预 
测模型-般不揎长预测其输出结果 fi :1 。 通常，你可以做一些工作改善对那些用于训练模 
型的数据范围之外的数据所做的假设的质董。 m 是在这个例子中也许没有这个必要，因 
为人的 体重通 常在48〜96英寸。 

除乂仅运行回归模型并且观察系数结果，还可以使用 R 语言做更多的事情，用以理解 
线性回归的结果。由干介绍 R 语言所能产生的所有不同输出将会占用整本书的篇幅，因 
此这电仅仅关注提取系数之后的一些最为关键的部分。当在实际环境中进行预测的时 
候，系数就是你所需要知道的全部。 

首先，需要对模型存在什么问题有一个感性的认识。我们通过计算模型的预测结果，并 
辻将结果与输人做比较来达到上述目的。为了获得模型的预测结果，可以使用 R 语言中 
的 predict 函数: 


predict (fitted, regression) 


一旦获得了模犁的预测结果，就可以使用简单的减法来计算预测结果和真实值之间的误 

差。 


true.values <- with(heights.weights,Weight) 
errors <- true, values - predict (fitted. regression) 

通过上述这种方法计算得出的误差称为残差，因为它们是我们的数据中由一条直线所能 
解释的那部分之外的剩余部分。在 R 语言中可以通过使用 residuals 函数替换 predict 函数来 
A 接获得 残差： 


residuals (fitted, regression) 


为 f 发现使用线性回旳时产生的明显错误，可以把残差和真实数据对应画在一幅图中。 
plot (fitted, regression, which = l) 


注意： 在这里，通过指定 which = l , 仅 U：R 语言只画出了第一个回归诊断点图。你也可以获得其他 
的点阁，建议你通过实践看看其他的点图对你是否有所帮助。 


在这个例子中，我们可以说这个线性模型很有效，因为在残差中不存在系统性的结构。 
但是这里有一个直线并不适用的 例子： 


x <- 1:10 



>11： 用技木方式描述这一问题 就是： 回归擅长内推插值 （ interpolation ) ，却不犢长外推归纳 

( extrapolation ) 。 
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fitted.regression <- lm(y ~ x) 
plot(fitted.regression, which = l) 

对于这个问题， 我们吋 以看到残差中存在明 K . 的结构。当对数据进行建模时，通常碰到 
的一件难办的事 倩是： 一个模型应该把真实世界的信号（预测值给出的）和噪声（残差 
给出的）分开来。如果你通过肉眼就能看到残差中存在的信号，那么你的模型就没冇强 
大到足以提取所有的信号，并且只留下真正的噪声作为残差。为了解决这个问题，第6 
章将 W 论比我们现在使用的简筚线性回 归模型 更强大的回归模型。但是能力越大，责任 
就越人，第6章实际上将专注干因使用那些强大的模型而出现的特殊问题，那拽模型实 
在是太强人 r , 以致不小心谨慎就不能使用。 

接下来我们将更仔细地讨论正在使用的线性回归模型做得有多好。拥有残差是很棒的市 
情，何是在使用时，不可抗拒地要处理太多误差。我们想通过黾独的一个数字来总结结 
果的质 M 。 

Ai •简单的误差衡 k 指标是：丨）取所有的残差 ； 2) 对它们进行平方处理，以获取模型的 
误差 平方； 3) 把这些误差平方加在一起求和。 

x <- 1:10 
y <- x A 2 

fitted.regression <- lm(y ~ x) 

errors <- residuals (fitted, regression) 
squared.errors <- errors A 2 
sum(squared.errors) 

#[l] 528 

对于比较不 M 的模型，这个简单的误差平方和数值是有用的，但是它存在一些缺点，致 
使大多数人最终讨厌它。 

片先误差平方和在大数据集上的值比在小数据集上的值更大。为了确信这一点，想象一 
K 已有一个固定的数据集以及这个数据集的误差平方和，现在增加一个不能完美预测的 
数据点。这个新数据点将误差平方和增加，这是因为添加一个正数到之前的误差平方和 
只能使得这个和更大。 

但是有一个简单的方法可以解决这个问题：使用误差平方的均值，而+是用它们的和。 
这也就是本 这前面 已使用过的均方误差 （ MSE ) 度量 方法。尽管 MSE 并不会在我们获取 
史多数据时像误差平方和那样一直增加，但是 MSE 依然存在一个 问题： 如果预测的平均 
偏离 M ： 只有5,那么均方误差数将会是25。这是因为我们对误差求了平方，然后再 I 十算 
它们的均值。 

x <- 1:10 
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fitted.regression <- lm(y 


errors <- residuals (fitted, regress ion) 
squared.errors <- errors A 2 
mse <- mean(squared.errors) 
mse 

#[l] 52.8 


这个又 • 干度 tt 问题的解决方法很 简单： 对均方误差 （ MSE ) 进行开方运算以获得均方 
根汉差，这就是 RMSE 度 tt/i 法，在本章的前面曾经尝试过。 RMSEM -个非常流行的 
度方法，一般用于评估机器学习算法的效果，包括那共比线性回归更加复杂精巧的算 
法。例如， Netflix 人奖赛就是使用 RMSE 作为明确的标准来 进行评 分的，它用 RMSE 来 if 
价参赛者的算法效果有多好。 


x <- 1:10 
y <- x A 2 

fitted.regression <- lm(y 〜 x) 

errors <- residuals (fitted, regression) 

squared.errors <- errors A 2 

mse <- mean(squared.errors) 

rmse <- sqrt(mse) 

rmse 

#[l] 7.266361 

RMSE 有•点不尽如人怠，就垃它不能 U : 人直观清楚地看出哪个模型表现平平。理想的 
效果很清晰，就是 RMSE 值为0,但在实际任务中，追求理想是不切实际的。同样，使用 
RMSE 也不容易识别什么时候一个模型的效果作常差。例如，如果每个人的身卨都垃5英 
尺，而你的预测是5000英尺，你将得到一个巨大的 RMSE 伉。并 R 你可以做得比那个预 
测 电若， 比如预测出是50 ()0() 英尺，再差一些就是5 000 000英尺。 RMSE 可以取无限的 
侦，这使得通过它很难知道你的模型效采足否合理。 

当我们使用线性回 W 模型时，解决这个问题的办法足使用 R 2 。 R 2 的思路是要看你的揆犁 
4假如只是用均值作为预测结果相比有多好。为了便于解释， R 2 的值将总足介 T 0 〜1。 
如果你正在做的预测件不比使用均值做得更好， R 2 的值将是0。而如果你对干每个数据 
点都做出完美的预测， R 2 的值将是1。 

W 为 R 2 的值总是在0〜 I ，所以人们倾向于将它乘以100，并且将相乘的结果看做数据中 
能够被你的模型解释的那部分所占的百分比。这是一种对模型准确性建立直观认 I 只的 
简便方法，甚至在一个新领域，即使你没有任 何关干 RMSE 的经验标准值，都可以使用 
它。 
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-1 - (model.rmse / mean.rmse) 
0.1259502 


要计兗 R 2 , 需要计算两个 RMSE 值，第一步足只使用均值来当做所有样本数据的颀测值 
时的 RMSE ， 第二步是使用你的模喂所做出的预测的 RMSE 。 完成这两步之后，只需要 
一个简单的除法算术运算就能得到 R 2 , 代码描述如下 所示： 

mean.rmse <- 1.09209343 
model.rmse <- 0.954544 


预测网页流量 

到目前为止，我们 d 经做好了使用冋归模型开展工作的准备，本章的案例研究将专注 
干使用回归模型预测互联网上排名前1000的 M 站在2011年的访问 M 。 数据集（由 Neil 
Kodner 提供）的前五 行见表 5-3。 

我们只需要用到这个数据集的一部分列来开展工作，只考虑 如下五个列： Rank 、 
PageViews 、 UniqueVisitors 、 HasAdvertising 和 IsEnglish 。 

Rank 列表明这个网站在前 1 000 的排名列表中的位置。止如你所看到的， Facebook 是数 
据集中排名第一的网站， rfriYouTube 是排名第二的网站。 Rank 是一类有意思的度量标 
准， W 为它是一个顺序值，所使用的数字并不足 真的要 表示一个值，而仅仅用于表明网 
站流景的排名。针对这些值无意义，你可以这样理 解：像 “这个列表中排在第 1.578 位 
的网站是什么？”这类问题是没有真正答案的。如果所使用的数字是基数值 （cardinal 
value ) ,这类问题将会有答案。还可以通过另一种方式来强调这种区别，你可以注意 
到，如果用 A 、 B 、 C 、 D 来代替1、2、3、4表示排名，这种方式并不会丢失任何信息。 


表 5-3: 排名最高网站的数据集合 


Rank 

Site 

Category 

Unique- 

Visitors 

… _ . - - n 

Reach 

Page- 

Views 

HasAd¬ 

vertising 

InEnglish 

TLD 

1 

Facebook.com 

Social Networks 

880000000 

47, 

9.ie+ii 

Yes 

Yes 

com 

2 

youtube.com 

Online 

Video 

800000000 

42.7 

l.Oe+ii 

Yes 

Yes 

Com 

3 

yahoo.com 

Web Portals 

660000000 

35.3 

7.7e+10 

Yes 

Yes 

Com 

4 

live.com 

Search Engines 

550000000 

29.3 

3.6e+10 

Yes 

Yes 

Com 

5 

Wikipedia.org 

Dictionaries & 

Encyclopedias 

490000000 

26.2 

- - 

7.0e+09 

no 

Yes 

1 - 

org 


2 2 [ 
r r # 
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接下来的列是 PageViews ， 这是我们在这个案例研究中想要预测的输出，它告诉我们一 
个网站在那一年被访问了多少次。这是一个衡最 M 站流行程度的好方法，比如 Facebook 
拥有重复访问的用户，这些用户多次回访该网站。 


注意： 在你读完本章之后，念成比较 PageViews 和 UniqueVisitors 是一个不错的练习，从中可以发 
现一种方法，该方法能指出哪类 M 站会有很多的重复访问者，而哪类网站有非常少的 fS £ 
访问者。 


UniqueVisitors 这一列告诉我们，在采样的月份期间，有多少不同的用户访问网站。如 
果你认为 PageViews 容易闪为用户+必要的刷新页面而增加，那么用 UniqueVisitors 这列 
来衡1：有多少不同的用户〖方问 M 站是一个不错的方法。 

Has Advertising 这一列告诉我们一个网站上面是否有广告。你也许会认为广告是噪声， 
并且在其他所有条件相同的时候，人们倾向于不访问那些有广告的网站。我们可以使用 
回归模型做个显而 M 见的测试。事实上，回归模型最大的一个价值就是它让我们能尝 
试回答一些问题，在这些问题中我们不得不讨论“其他所有条件相同”的情况。之所以 
这电说“尝试”，是因为回归模型的质董，只与我们拥有的输入的好坏相一致。如果有 
一个*要的变量从我们的输人中丢失了，冋归模型的结果就可能与真相相差非常远。因 
此，你应该一直假设冋归模犁的结果是不确 定的： “如果我们拥有的输入足够问答这个 
问题，那么答案应该是……” 

IsEnglish 这一列 ft •诉我们一个网站的主要语言是否是英语。审视整个列表，可以很清 
晰地呑到，大多数排名靠前的网站主要语言不是英语就是汉语。我们之所以选择这一 
列，是因为有一个有趣的 问题： 用英语作为网站主要语言是一个正面因素还是负面因 
桌？选择它的另一个原 因是： 这个回归例子的因果关系并不是完全清楚的，因为用了英 
语，所以网站 I 会广受欢迎？还是因为英语是互联网的通用语言，所以广受欢迎的 M 站 
决定采用英语？冋旳模型可以灼诉你这两件赛之间有关系，但是它不能告诉你的是，其 
中哪一件是因，哪一件是果。 

现在我们已经描述了已有的输入，并且选定 PageViews 作为输出。首先从直观上认识一下 
这 1 ^东两之间的关联。一开始，我们将绘制一幅 PageViews 和 UniqueVisitors 关联的散点 
图。我们一直建议读者在用回归揆型关联数值型变量之前绘制它们的散点图，因为可以 
从散点图上清晰地看出回归模型的线性假设是否成立。 

top.1000.sites <- read.csv('data/toplOOOsites.tsv', 

sep = 、 t r , 一 
stringsAsFactors = FALSE) 

ggplot(top.1000.sites, aes(x = PageViews, y = UniqueVisitors)) + 
geom_point() 
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我们通过调 fflggplot _ 数获得的散点图（如图 5-6 所示）看上去很糟 糕： 儿乎所有的数 
值都在 x 轴的附近挤成一束，而只有非常少的数字跳出了那一堆数。这是使用非标准分 
布数据工作时常见的一个问题，为显示整个数值跨度而选择使用非常大的刻度，使得数 
彻屮主要数据点趋向于彼此之间距离很近，以致无法直观地将它们区分开。为 r 证实数 
掘的散点 阁上 的那个梢糕形状，是因为使用了这种大刻度画图方法的问题， 町 以观察 
PageViews 本身的分布： 

ggplot(top.1000.sites, aes(x = PageViews)) + 
geom_density() 


图 5-6: UniqueVisitors 对 PageViews 的散点图 

这个密度图（如图 5-7 所示）看上去和前面的散点图一样完全+可理解。当你看到没有意 
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义的密度图时，一个好办法是尝试对你想要分析的 数值取 log ， 并11使用经过 log 变换后 
的值重绘一幅密度图。我们可以简单地通过调用 R 语言的 log 函数来实现上述 想法： 


00 e +00 - 


2 e +11 4 e +11 6 e +11 8 e +11 

PageViews 

图 5-7: PageViews 的密度图 

ggplot(top.1000.sites, aes(x = log(PageViews))) + 
geom_density() 

这样闸出的密度图（如 ft !5-8 所示）看上去就合理多了。因此，从现在开始我们将开始使 
用 log 变换后的 PageViews 和 UniqueVisitors 。 很容易在 log 刻度上重新绘制前面‘那样的散 
点图： 

ggplot(top. 1000 .sites , aes(x = log(PageViews), y = log(UniqueVisitors))) + 
geom_point() 
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图 5-8: 关于 Pageviews 的 log 刻度密度图 


ggplot 2 程序包内置丫一个方便的函数，用 f 把坐标轴的刻度转换成 log 形式。在这个案 
例中，可以使用 scale _ x _ log 或者 scale _ y _ log 。 不过，回忆一下第4章所讨论的内容，在 
某拄侪况下，你吋能想用 logp 函数来避免对 0 取 log 的错误。可是，在这个例+中，不存 
在那样的问题。 

散点图的作图结果如图 5-9 所示，看 h 去好像有一条可以使用回归 模塹画 出的潜在的直 
线。在使用 lm 函数去拟合一条回归直线之前， U : 我们以 method=_lnT 为参数使用 geom _ 
smooth 函数来看看回归直线将是什么样子的： 

ggplot(top.1000.sites, aes(x = log(PageViews), y = log(UniqueVisitors))) + 
geom_point() + 

geomsmooth(method = 'lm', se = FALSE) 
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16 17 18 19 20 

log(UniqueVistors) 

图 5-9: UniqueVisitors 对 PageViews 的 log 刻度散点图 

画出的直线如 》 I 5-10 所冶，看上去很不错，那么让我们通过调用 lm 函数来找到定义这条 
直线斜率和截距的 数值： 

In.fit <- lm(log(PageViews) ~ log(UniqueVisitors), 
data = top.1000.sites) 

现在已经拟合了这样一条直线，我们想要获得一份关干它的快速摘要信息。可以使用 
coef 函数查看系数，或者使用 residuals 函数查看 RMSE。 不过接下来将介绍另外一个函 
数，这个函数产生一个史加复杂的摘要结果，我们可以一步步地解释这个结果。就把这 
个函数称为 summary: 
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图 5-10: 带回归直线的 UniqueVisitors 对 PageViews 的 log 刻度散点图 

summary(lm.fit) 
ffCall: 

#lm(formula = log(PageViews) ~ log(UniqueVisitors), data = top.1000.sites) 
# 

^Residuals: 

# Min 10 Median 30 Max 

#-2.1825 -0.7986 -0.0741 0.6467 5.1549 

n 

#Coefficients: 

# Estimate Std. Error t value Pr(>|t|) 

^(Intercept) -2.83441 0.75201 -3.769 0.000173 *** 

#log(UniqueVisitors) 1.33628 0.04568 29.251 < 2e-l6 *** 

#Signif. codes: 0 ‘ 傘 * *’ 0.001 0.01 ‘*’ 0.05 0.1 ‘• 1 

» 
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^Residual standard error: 1.084 on 998 degrees of freedom 
^Multiple R-squared: 0.4616, Adjusted R-squared: 0.4611 
#F-statistic: 855.6 on 1 and 998 DF, p-value: < 2.2e-16 


summary 函数沒诉我们的第-件事情是对 lm 函数所做过的调用。当你使用命令行进 行工作 
时，这不是非常有用，但是当你使用对 lm 进行了多次调用的大喂脚本进行工作时，就变 
得有用了。在这种情况下，这个信息帮助你保抟所有的模型都是组织 ft 好的，以便清晰 
理解每 个校型 都有什么数据和变諼输人。 

Summary 闲数告诉我们的第二件节情是残差的分位数，如果调用 q uan tile ( residuals ( lm . 
fit )) 也町以计算出来这个分位数。就个人 而言， 我们没发现它有多大帮助，尽管相对干 
观察数据的散点图， 其他 人也许更倾向4找残差的坫大值和最小值之间的对你性。可 
是，我们几 乎总 是可以发现图形化的表示比数字化的摘要更加容易传达信息。 

接 卜'来， summary 要告诉我们比 coef 函数 ® if •细的叫0~1模®系数信 息。 来 ftcoef 函数 
的输出在结果列表中到 “ Estimate ” 这一列结束。在那之后，每一个系数都有 “ Std . 
Error ” 、 “ t - value ” ( t 值） 和 “ p - value ” （ p 值）这些列。这些值用于评估我们计算的 
佔 I 卜结果? f 在的不确定性，换句话说，它们 就足背 信度，所 iPT 置信度就是衡 M ： 我们对 U - 
筧结果能够准确描述真实世界到底有多大的信心。例如 ， “Std . Error ” 可以用 f 产生 
一个界 佶度为95%的系数 W 信区 N 。 这个 K 信 KN 可能有些解释不清，汴 J 1 偶尔还会误 
导他人。对肾信 K 间所表示的范 IM 我们可以这样 表述： “在95%的情况下，构造这个区 
间的算法能让真实的系数值落人这个区 N 。 ”如果你对这个表述仍然不愫，那也 正常： 
不确定性分析迠非常 c 要的， m 是比我们在本书中包含的其他内容要难很多。如果你真 
想深入理解这部分内容，建议你购买统计学图书，例如 ((All of Statistics » [ Wa 03] 或者 
《Data Analysis Using Regression and Multilevel/Hierarchical Models )) [ GH 06], 并且仔 
细阅读。幸运的是，如梁你只是想临时使用儿个模型来颅测某些东西，那么大可不必把 
注意力放在标准误差的定 n 差异上。 

“ t - value ” 和 “ p - value ” （在 summary ^! 数的输出中写作 “ Pr (: ） 两列都是用于携 j 
8：我们对真实系数不为零有多大信心的。这些用干说明我们正在考察的输人和输出之间 
存在 真实的联系，我们对此是有信心的。例如，在此我们可以用 “ t - value ” 列来评佔对 
PageViews 和 UniqueVisitors 确实相关有多大把捤。以作者的经验，如果你理解广它们， 
那这两个数字可能很有用，但是它们的用法太不好理解了，以致一些人下意识觉得永远 
也不可能完全弄愫统计学。如果你想知道这两个变紙之间是否确实存在关联，那么应该 
检奄 f 占 I 十值 足否至 少阳离本两个标准羞之外。例如 ， log ( UniqueVisitors ) 的系数垃 
1.33628, 而标准差是0.04568,就是说这个系数距离零 29. 25306 (1.33628 / 0.04568 
== 29.25306) 个你准 差之外。如果得到的系数与零距离远在3个标准误差之上，那么你 
就有 理由相 信两个变釐之间是相关的。 
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齊告： “ t - value ” 和 >- value ” 用 干判断 两列数据之间是否真的存在关联，或者只是一种偶然现 
象。判断一个关系的存在是有价值的，但是理解这个关系是另一件完全不同的事情。回妇 
模型不能帮助你理解关系。人们试图苛求用回归模型理解关系，但是，如果你想要理解两 
件哄情相关的原因，归根结底还需要更多的信息，远非一个简畝的回归模型所能提供。 


确信一个输入和输出相关的传统简便方 法是： 为这个输入找到一个距离零为至少两个标 
准差之外的系数。 

s u m m a r y 涵数输出的 F —部分信息是关干系数的! rf . 著性编码。那些数卞旁边的星号 
的意思是 “ t - valne ” 有多大或者 “ p - valtie ” 有多小。具体来说，那些星号告诉你在 
“ p - value ” 小干0.1、小于0.05、小 T '0.01 或者小干 0.001 等这一系列情况 F ， 你是否通过 
r 前向描述的那个武断的简便判别方法。请不要担心这些让人厌烦的值，在学术界它们 
很常见，是从使用手 工而非 计算机进行统计分析的时代延续过来的。那些内容确实没有 
什么意思，因为你在求解估计结果距离零有多少个准误差时并不会看到它们。你也许 
注意到，事实上，我们之前计算的关丁 log ( UniqueVisitors ) 的 “ t - value ” 恰好是系数估 
计值距离零的标准差个数。 U t - value w 和距离零的标准差个数之间的上述关系一般来说 
是正确的，因此建议你根本不需要使用 “ p - value ” 。 

我们得到的最后一部分信息是关干从数据中拟合得到的线性模型的预测能力。第一个 
是 “Residual Standard Error ” ，很简单，就是我们使用 sqrt ( mean ( residuals ( lm . fit ) A 
2)) 计算出来的 RMSE。“degree of freedom ” （3 山度）是指卜‘面的槪念，我们在分 
析中使用的数据点至少要有两个，才能有效地拟合出两个系数，这两个系数是截距和 
log * UnqueVisitors * 的系数。998 lWl 这个 数字也 跟自由度是相关的，因为如采你用500个 
系数去拟合1000个数据点，那么就算 RMSE 值较低也不值得称赞。当数据较少而使用的 
系数却较多时，就是过拟合的一种形式，这将在第6章中深入讨论。 

然后，我们看到的足 “Multiple R - squared ” 。这是标准的 “ R 平方”，这在前面已描述 
过，它指明我们的数据中存在的变化有多少已经被模型所解释。在这里我们使用模型解 
释了46%的变化，这已经相当好了 。 “Adjusted R - squared ” 是第二个度最，它根据你使 
用的系数的个数调整 “Multiple R - squared ” ，系数的个数越多 ， “Multiple R - squared ” 
就会得到越大的惩罚。在实践屮，我个人倾向于忽略这个值，因为我认为它有点像个特 
设参数，但是有很多人非常喜欢它。 

最后，你将看到的最后一个信息是 “ F - statistic ” 。这是关于你的模型相对 T 仅仅使用均 
值来做预测所获得的效果提升的-个度量。它是 “ R 平方”的-个替代方案，可以用来 


译注丨：数据点个数与系数个数的差值。 
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il •算 “ p - value ” 。 因为我们认为 “ p - value ” 通常是有欺骗性的，所以我们建议不要太过 
相信 “ F - statistic ” 。 如果你完全理解用于计算 “ p - value ” 的原理,那么 “ p - value ” 是 
有其用途的，但是它们会提供一种虚假的安全感，这种感觉将使你忘 i 己模型效果的黄金 
fe 准是： 它在未知数据^ 12 上的预测能力，而不是你的模型在用 F 拟合它的数据上的效 
果。我们将在第6章讨论如何评估你的模型预测新数据的能力。 

讨论 s u m m a r y 函数的输出结果已经 ih 我们离题万里，不过我们不想仅仅用 
UniqueVisitors 来关联 PageViews ， 还想引人一些其他类型的信息。我们也将包含 
HasAdvertising 和 IsEnglish 来看看当给模型更多的输入时，会发生 什么： 

lm.fit <- lm(log(PageViews) ~ HasAdvertising + log(UniqueVisitors) + InEnglish, 
data = top.1000.sites) 
summary(lm.fit) 


#Call: 

#lm(formula = log(PageViews) ~ HasAdvertising + log(UniqueVisitors) + 

# InEnglish, data = top.1000.sites) 

# 

^Residuals: 

# Min IQ Median 3Q Max 

#-2.4283 -0.7685 -0.0632 0.6298 5.4133 

# 

#Coefficients: 

# Estimate Std. Error t value Pr(>|t|) 

^(Intercept) - 1.94502 1.14777 -1.695 0.09046 . 

#HasAdvertisingYes 0.30595 0.09170 3-336 0.00088 
#log(UniqueVisitors) 1.26507 0.07053 17.936 < 2e-l6 **♦ 

#InEnglishNo 0.83468 0.20860 4.001 6.77e-05 *** 

#InEnglishYes -0.16913 0.20424 -0.828 0.40780 

#••• 

#Signif. codes: 0 •***’ 0.001 ’ o.oi 0.05 o.i " 1 

# 

#Residual standard error: 1.067 on 995 degrees of freedom 
^Multiple R-squared: 0.4798, Adjusted R-squared: 0.4777 
#F-statistic: 229.4 on 4 and 995 DF, p-value: < 2.2e-l6 

我们再一次看到 summary 函数输出 f 曾对 lm 函数做过的调用，并且输出了残差。这次输 
出结果中新增加的是在这个更复杂的回归模型里包含的所有变量的系数。这里又看到了 
截距，在输出结果中是 （ Intercept ) 。下一项和我们之前看到的都不一样，这是因为我 
们的模型现在包含了一个因子。当在回卩 J 模型中使用一个因子时，模型必须做出决定把 
闪子的一种取值情况作为截距的一部分，而因子的其他取值情况在模型中显式地呈现出 
来。在这里可以看到因子 HasAdvertising (是否有广告）被用干建模，因此，对千那些 
HasAdvertising == ' Yes 1 (有广告）的网站来说，这个因子取值从截距中分离出，而对 
干那些 HasAdvertising == ' No ' (无广告）的网站来说，这个因子取值包含进截距中。 


译注2:这里的未知数据是指没有用来拟合的数据 a 
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换种说法来汫， ftH 〖就足对一个没有广 ft •并 ftlog ( UniqueVisitors ) 馆为岑的 网站 的流 
ft 预测，这种情况发生在 UniqueVisitors 取値为1时。 

可以看到对于 InEnglishtk 发生了同样的逻辑，这个 W 子存很多 NAfft ， 因此对丁•这个虚 
拟变镇来说实际 h 有三个级別的 取值： NA 、 No 和 Yes 。 在这种情况下， R 语言默认把 NAW 
包含进回归模型的截距中，并且分别对 No 和 Yes 两个取值拟合系数。 

现住我们匕经考虑 r 如何将这些闪 f •作为 m 彳模切的输人，让我们单独比较之前用过的 
乂个输人，来肴看当只使) H 其中一个时，哪个输人 ft 有最强的颅测能力。要做到这- 
点，我们可以单独提取每个 summary 函数的 R 、 P 方值： 


lm.fit <- lm(log(PageViews) HasAdvertising, 
data = top.1000.sites) 
suminary(lm. f it )$r. squared 
#[l] 0.01073766 

lm.fit <- lm(log(PageViews) ~ log(UniqueVisitors), 
data = top.1000.sites) 
summary(lm.fit)$r.squared 
#[ 1 ] 0.4615985 

lm.fit <- lm(log(PageViews) ~ InEnglish, 
data = top.1000.sites) 
summary(lm.fit)$r.squared 
#[l] 0.03122206 

iK 如你所看到的 ， HasAdvertisingH 解释 n % 的方差 ， UniqueVisitors 解释 T 46 %，ifii 
InEnglish 解释广3%。在实践中，3输人容 钻获 得时，値得将所有输人都包禽进一个预测 
揆切，但是如果 HasAdvertisingii 难以通过程序获得的，那么 逑1 义把它从一个拥有 K •他 
更具颅测能力的输人模型屮去掉。 


定义相关性 

到_前为止已经介绍 r 线性 N 归模喂，现在简中4炎谈另一个主题一相关性。从严格怠 
义上说，如果两个变最之 N 町以用一条 ft 线描述，那么它们就存在相乂•性。换句活说， 
+11关性川来衡线性回归模型对 W 个变址之间关系建模的好坏 。悄 为 () 的相关性表明没 
冇一条我们感兴趣的直线能将两个变 W : 联系起来。值为1的相关性丧叫行 一条完 美的正 
向直线 （ t 升）把两 个变馱 联系起来。值为 - I 的相关性表明有一条完笑的负向 a ; 线 （K 
降）把两个变 a ： 联系 起来。 

为了阐 明这呰槪念，接 F 宋看-个简短的例 f 。 纥先，我们将产生-些不是严格线性的 
数椐并 且画出 它们。 

X <- 1:10 

w / _ v A 
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ggplot(data.frame(X = x, Y = y), aes(x = X, y = Y)) + 
geom point() + 

geomsmooth(method = ’lm', se = FALSE) 



X 


图 5-11: 直线展示了 X 和 Y 之间的非完美线性关系 

样木数据如丨所示。如你所见，使 qigeom _ smooth 函数_出的 g 线并没有通过所有的 
点， w 此 x 和 y 之间的关系小能足完美的线性。 m 足有多么接近完笑呢？为了回答这个 
问题，我们使用 cor 函数来比较相 关性： 

cor(x, y) 

#[1) 0.9745586 

在这里我们吋以肴到， x 和 y 吋以由•条相当好的直线关联起来， cor 函数可以用来估计这 
个关系有多强。在这个例子中，这个佔计值是0.97,儿乎是1。 
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我们怎样才能自己计算相关性而不垃用 cor 函数呢？我们 吋以用 lm 函数，但足先得对 x 和 
y 进行刻度变换。调整刻度，先是减去两个变量的均值，再除以标准差。在 R 语言中，你 
可以使用 scale 函数执行刻度 变换： 


coef(lm(scale(y) ~ scale(x))) 

# (Intercept) scale(x) 

#-1.386469 e - l 6 9.745586 e -01 

可以看出，在本例中， x 和 y 的相关性恰好是关联两者的线性回归模型的系数。计算相关 
性具有呰遍意义，你总是可以用线性回归模型来理清两个变量相关到底意味着什么。 

相关性仅仅用于度量两个变量之间的线性关系有多强，它没有告诉我们两个变最之 
间有任何因果关系。这恰好印证了一句格言“相关并非因果” (correlation is not 
causation ) 。尽管如此，如果你想使用两件事情其中之一去对另外一个做预测，那么知 
道它们是否相关还是很重要的。 

至此，我们对线性回归模型和相关性槪念的介绍某本结束。在下一章中，我们将展示如 
何使用更加复杂精练的回归模型，它们可以处理数据中的非线性模式并且同时预防过 
拟合。 
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第 6 章 

正则 化:文 本回归 


数据列之间的非线性 关系： 超越直线 

我们在第5章里说过，线性回归假设两个变最之 N 的关系可以用直线来表示，事实上， 
如果两个变量之间的关系并不适合用直线来表示，而我们非要用线性回归来拟合它们也 
未尝不可。不过，让我们来看看这会导致什么问题，假设你有图 6- la 的数据。 

敁然，从这张 散点阁 来看， X 和 Y 之 间的关 系用直线来描述并不合适。亊实上，若把拟 
合出来的回归直线画出来，就吋以知道用直线来描述 X 和 Y 之间的关系会出什么问题， 
详见图 6- lb 。 


如果用线来拟合 X 和 Y 的关系，我们对 y 的预测值就存在系统 误差： 当 X 较小或较大 
时，我们高估了 Y 的值；而其余的时候，我们又低估了 Y 的值。这可以从图 6-〗 c 中清楚地 
看出。在图 6- lc 中，可以看到原数据集合的所有结构，而这种结构完全不能被线性回归 
模型所描述。 

为了对数据进行一个光滑的非线性拟合，可以使用更复杂的 Generalized Additive Model 
( GAM , 广义加性模型)统计模型，通过使用 ggplot 2 程序包中的 gemo_smooth 函数，并 
使用默认的 method 参数，就可以拟合 GAM 模型： 

set.seed(l) 

x <- seq(-10, 10, by = 0.01) 
y <- 1 - x A 2 + rnorm(length(x), 0, 5) 
ggplot(data.frame(X = x, Y = y), aes(x = X, y = Y)) + 
geom_point() + 
geomsmooth(se = FALSE) 
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结果如图 6- ld 所示，我们要拟合的数据集其实是-条曲线而不是直线。 



图 6-1: 为非线性数据 建模： a) 图形化非线性 关系； b) 非线性关系与线性 拟合； c ) 结构化的 
残差； d ) 广义加性模型的结果 

那么，我们可以将数据拟合成曲线吗？这正是线性冋归的微妙 之处： 尽管线性回归只能 
将输入拟合成直线，但是你可以使用非线性函数将输人转化成新的输人。例如，你可以 
使用下面的 R 语言代码来将原始输人 x 转化成原始输入的平方： 

x.squared <- x A 2 

然后， 你可 以将数据中的 Y 与 x . squared 进行拟合，你会看到一个与之前非常不同的拟合 
形状： 


ggplot(data.frame(XSquared = x.squared, Y = y), aes(x = XSquared, y = Y)) + 
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geom_point() + 

geomsmooth(method = 'lm', se = FALSE) 


正如图6-2所示，将 y 勺 x . squared 进行拟合之后的图形非常接近一条 ft 线。从本质 h 说， 
我们已经将原先的非线性问题转化成一个新的线性 M 归问题 f 。 类似这种通过对输人进 
行转换，将一个&杂的作线性问题转换成一个线性问题的方法在机器学习问题屮作常常 
阽。事实上，这也是将在第12茕中提到的 kernel trick (核方法）的本质思想。我们比较 
一下使用 x 和 x . squared 进行线性回归的 R 2 值，就能明 G 这个简哏的转换在准确韦 方尚提 
升了多少。 



图 6-2 : 非线性回归 

summary(lm(y ~ x))$r.squared 
#[l] 2.973e-06 
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summary(lm(y ~ x.squared))$r.squared 
#[l] 0.9707 

我们所能解释的数据占比从几乎0%提升到97%。对于一个如此简中.的改进来说，这个 
提升非常巨大。通常，我们会好奇，如果用比直线更复杂的模型来拟合数据，准确率能 
提髙多少。因为相关的数学原理非常复杂，所以这个问题的解答已超出了本书的讨论范 
围，其实，只要选择的曲线足够复杂，你就可以拟合两个变最之间可能存在的任何一种 
关系。其中一种拟合复杂形状的方法我们将会在本章的下一节中介绍——多项式回归 
(polynomial regression ) 。但是，多项式拟合带来的灵活性并不是没有代价的，它会让 
我们拟合数据中的噪声，而不是真正想要拟合的数据模型。因此，如果打算用多项式拟 
合来替代线性拟合，必须遵守一些额外的准则，本章的余下内容将会关注这些准则。 

多项式回归简介 

带猗前面提过的问题，让我们开始学习 R 语言中的多项式回归，在 R 语言中多项式回归是 
由 poly 函数实现的。想要了解 poly 函数的工作原理，最简单的方式就是将它应用在一份 
简单的实例数据上，然后看看假如我们提髙多项式的次数来“更好”地拟合数据时会发 
生什么。 

我们会用正弦函数来创建一份实验数据，以确保变量 x 和 y 之间的关系不能用简单的直线 
来描述。 


set.seed(l) 

x <- seq(0, 1, by = 0.01) 

y <- sin(2 * pi * x) + rnorm(length(x), 0, 0.1) 

df <- data.frame(X * x, Y = y) 

ggplot(df, aes(x * X, y * Y)) + 
geom_point() 

如图 6-3 所示的数据，显然一个简单线性拟合并不适用。不过，还是让我们试一下线性模 
型，看看会发生 什么： 

summary(lm(Y ^ X, data = df)) 

#Call: 

#lm(formula = Y ^ X, data = df) 

# 

#Residuals: 

ft Min lQ Median 3Q Max 

#-1.00376 -0.41253 -0.00409 0.40664 0.85874 
# 

^Coefficients: 
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I I 書 I I I 

00 0 2 0.4 06 0.8 1.0 
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图 6-3: 非线性数据 

# Estimate Std. Error t value Pr(>|t|) 

#(Intercept) 0.94111 0.09057 10.39 <2e-l6 *♦* 

#X -1.86189 0.15648 -11.90 <2e-l6 *** 

林… 

#Signif. codes: 0 •***， 0.001 ‘**， 0.01 ‘*， 0.0S ‘•， 0.1 4 * 1 

林 

^Residual standard error: 0.4585 on 99 degrees of freedom Multiple R-squared: 0.5885, 
#Adjusted R-squared: 0.5843 F-statistic: 141.6 on 1 and 99 DF, p-value: < 2.2e-l6 

结果出乎意料，针对实验数据集使用线性回归，线性模型可以解释其中60%的数据，尽 
管我们清楚，对正弦波数据而言，线性回归并不是一个好模型。我们同样知道，一个好 
的模型应该至少能解释90%的数据，但我们仍然要指出线性模型究竟是怎么做到能解释 
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It 中 6 0% 的数据的。要回答这个 H 题，最好使用 geom _ smooth 函数，件且衍定它的 met hod 
参数为 ‘ lm ’ ，这样就能把拟合的直线在图中显式地 iai 出来： 

ggplot(data.frame(X = x, Y = y), aes(x = X, y = Y)) + 
geom_point() + 

geomsmooth(method = 'lm' , se = FALSE) 

如 I 冬 16-4 所示，我们发现线性模型使用了一个向下倾斜的直线来拟介了正弦波数据中间 
那部分呈递减趋势的数据。但这并不是一个好的策略，因为这系统地无视了数椐头; 4 两 
部分 M 递增趋势的数据。如果这个正弦波冉扩展一个周期， R 2 值将会突然 F 降到接近十 
0 % o 

我们发现默认的线性回归在实验数椐集 h 只拟合屮间递减的那小部分特定的数据，并没 
能发观真实的波形结构。但是如果我们给线性回归更多的输人会怎么样呢？它能发现它 
学习的数据其实是一个波形数据吗？ 

•个 " f 行的方法就像本章开始时我们做的那样，给数据集增加输人。为了有史多的回旋 
余地，我们这次同时增加 X 的平方项和 X 的立方项。你会发现这 M 著提高 f 颅测准 确率： 

df <- transform(df , X2 : X A 2) 
cif <- transform(df, X3 = X A 3) 

summary(lm(Y ~ X + X2 + X3, data = df)) 

#Call: 

#lm(formula = Y X + X2 + X3, data = df) 
n 

#Residuals: 

# Min IQ Median BQ Max 

#-0.32331 -0.08538 0.00652 0.08320 0.20239 

# 

^Coefficients: 

U Estimate Std. Error t value Pr(>|t|) 

#(Intercept) -0.16341 0.04425 -3.693 0.000367 *** 

#X 11.67844 0.38513 30.323 < 2e-l6 *** 

#X2 -33.94179 0.89748 -37.819 < 2e-l6 •** 

#X3 22.59349 0.58979 38.308 < 2e-l6 *** 

#--- 

#Signif. codes: 0 ‘***’ 0.001 •**’ 0.01 •*’ 0.05 4 / 0.1 1 

# 

#Residual standard error: 0.1153 on 97 degrees of freedom 
^Multiple R-squared: 0.9745, Adjusted R-squared: 0.9737 
#F-statistic: 1235 on 3 and 97 DF, p-value: < 2.2e-l6 
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图 6-4: 非线性数据的光滑线性拟合 

U 增加 r 两个输人特征， R 2 值就从60%提升到97%,这的确是巨大的提升。 ifiiil , 从原 
则上说，只要我们愿意,寸以继续增加更多的 X 髙次方项到数据集里来。但是，随着吏 
多的 x 商次方项的加人，我们敁终会发现，输人特征的个数已经超过 f 样本的个数—— 
这通常是-个比较麻烦的事情，丙为这意味褚，原则卜.，我们可以完美地拟介训练数 
据。 m 到那时我们会遇到一个比较棘手的问题：新增的髙次方列数据与之前的列数据之 
问太+11关， 以辛 / Hm 闲数不能正常拟合了。接下来的 summary 函数输出中我们会看到一 
个叫做奇异点 ( singularity ) 的问题。 

df <• transform(df , X4 = X A 4) 
df <- transform(df, X5 = X A 5) 
df <- transform(df, X6 = X A 6) 
df <- transform(df, X7 * X A 7) 
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df <- transform(df, X8 = X A 8) 
df <- transform(df, X9 = X A 9) 
df <- transform(df, XlO = X A 10) 

df <- transform(df, Xll = X A ll) 

df <- transform(df, X12 = X A 12) 

df <- transform(df, X13 = X A 13 ) 

df <- transform(df, X 14 = X A 14 ) 

df <- transform(df, X 15 = X A 15 ) 

summary(lm(Y ~ X + X2 X3 + X4 + X5 + X6 + X7 + X8 + X9 + XlO + Xll + X12 + X13 + 
X 14 , data = df)) 

#Call: 

#lm(formula = Y ~ X + X2 + X3 + X4 + X5 + X6 + X7 + X8 + X9 + 

# XlO + Xll + X12 + X13 + X14, data = df) 

U 

#Residuals: 

# Min IQ Median 30 Max 

#-0.242662 -0.038179 0.002771 0.052484 0.210917 

# 

^Coefficients: (1 not defined because of singularities) 
ft Estimate Std. Error t value Pr(>|t|) 


^(Intercept) 

-6.909e-02 

8.4l3e-02 

-0.821 

0.414 

#X 

1.494e+01 

1.056e+01 

1.415 

0.161 

#X2 

-2.609e+02 

4.275e+02 

•0.610 

0.543 

#X3 

3.764e+03 

7.863e+03 

0.479 

0.633 

nu 

-3.203e+04 

8.020e+04 

•0.399 

0.691 

#X5 

1.717e+05 

5.050e+05 

0.340 

0.735 

#X6 

-6.225e+05 

2.089e+06 

-0.298 

0.766 

#X7 

1.587e+06 

5.88le+06 

0.270 

0.788 

#X8 

-2.889e+06 

1.146e+07 

-O .252 

0.801 

#X9 

3.752e+06 

1.544e+07 

0.243 

0.809 

#X10 

-B.398e+06 

1.414e+07 

-0.240 

0.811 

#Xll 

2.039e+06 

8.384e+06 

0.243 

0.808 

#X12 

-7.276e+05 

2.906e+06 

-O. 25 O 

0.803 

#X13 

l.l66e+05 

4.467e+05 

0.261 

0.795 

#X14 

NA 

NA 

NA 

NA 


林 

#Residual standard error: 0.09079 on 87 degrees of freedom 
^Multiple R-squared: 0.9858, Adjusted R-squared: 0.9837 
#F-statistic: 465.2 on 13 and 87 DF, p-value: < 2.2e-l6 

造成奇异点问题的原 因是： 新增 X 的高次方特征与之前 X 低次方特征之间太相关，以致 
线性回 妇算法 不能正常执行——无法为每一个特征找到合适的权重系数了。幸运的是， 
我们可以从数学文献中找到解决这个问题的 方法： 并不只是简单地增加 X 的高次方项， 
而是增加史复杂的关于 X 的高次方多项式，虽然它们的作用类似 X 的纯高次方项，徂是并 
不像 x 和 xQ 那样相关。这些史加复杂的 x 的高阶多项式称作正交多项式& 1 (orthogonal 
polynomials) ,在 R 语言里面，你吋以使用 poly 函数生成正交多项式。不再是简单地将 x 
的1 ~ 14次方项直接加到数据集中，而是使用函数 poly ( X , degree = 14 )，这个函数返回 


注丨： 正交意味着不相关。 
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的结果类似 fx + X A 2 + X3 + ••• + X A 14, 但是它们互相正交，因此也就不会在调用 
lm 函数时产生奇异点问题了。 

为 f 确信 poly 运行正常，可以通过 poly 函数的返回值为参数运行 lm 函数，然后你就会看 
到函数确实返回了 x 的1〜14次方项的对应权重。 

summary(lm(Y ~ poly(X, degree = 14), data = df)) 

#Call: 

#lm(formula = Y ^ poly(X, degree = 14), data = df) 

# 

^Residuals: 

# Min lQ Median 30 Max 

#-0.232557 -0.042933 0.002159 0.051021 0.209959 

# 

^Coefficients: 


n 


Estimate 

Std. Error 

t value Pr(>|t|) 

^(Intercept) 


0.010167 

0.009038 

1.125 

0.2638 

#poly(X, degree 

s 

14)1 -5.455362 

0.090827 

-60.063 

< 2e-l6 … 

#poly(X, degree 

= 

14)2 -0.039389 

0.090827 

-0.434 

0.6656 

#poly(X, degree 

= 

14)3 4.418054 

0.090827 

48.642 

< 2e-l6 *** 

#poly(X, degree 

= 

14)4 -0.047966 

0.090827 

-0.528 

0.5988 

#poly(X, degree 


14)5 -0.706451 

0.090827 

-7.778 

1.48e-ll 

#poly(X, degree 

= 

14)6 -0.204221 

0.090827 

-2.248 

0.0271 * 

#poly(X, degree 

s 

14)7 -0.051341 

0.090827 

-0.565 

0.5734 

#poly(X, degree 

- 

14)8 -0.031001 

0.090827 

-0.341 

0.7337 

#poly(X, degree 

s 

14)9 0.077232 

0.090827 

0.850 

0.3975 

#poly(X, degree 

= 

14)10 0.048088 

0.090827 

0.529 

0.5979 

#poly(X, degree 

= 

14)11 0.129990 

0.090827 

1.431 

0.1560 

#poly(X, degree 

= 

14)12 0.024726 

0.090827 

0.272 

0.7861 

#poly(X, degree 

: 

14)13 0.023706 

0.090827 

0.261 

0.7947 

#poly(X, degree 

#Signif. codes: 

= 

14)14 0.087906 

0.090827 

0.968 

0.3358 

0 

‘***， 0.001 

‘"， 0.01 

0.05 ‘.’0.1 


# 

^Residual standard error: 0.09083 on 86 degrees of freedom 
^Multiple R-squared: 0.986, Adjusted R-squared: 0.9837 
#F-statistic: 431.7 on 14 and 86 DF, p-value: < 2.2e-l6 

通常来说， poly 函数提供了很强大的拟合能力，而且数学上已经证明，多项式冋归可以 
帮你拟合各种各样形状复杂的数据。 

但它未必是件好事。如果你一边增加 degree 参数，一边注意观测得到 的模塱 的形状，就 
会发现，通过 poly 函数增加的次数可能会带来麻烦。在接下来的例子中，我们分别用〖 
次、3次、5次和25次多项式来生成模型，结果见图6-5。 

poly.fit <- lm(Y ~ poly(X, degree = l), data = df) 
df <- transform(df, PredictedY = predict(poly.fit)) 

ggplot(df, aes(x = X, y = PredictedY)) + 
geom_point() + 
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geom_line() 


poly.fit <- lm(Y ~ poly(X, degree = B), data * df) 
df <- transform(df, PredictedY = predict(poly.fit)) 

ggplot(df, aes(x = X, y = PredictedY)) + 
geom_point() + 
geom line() 

poly.fit <- lm(Y 〜 poly(X, degree * 5), data = df) 
df <- transform(df, PredictedY = predict(poly.fit)) 

ggplot(df, aes(x = X, y = PredictedY)) + 
geom point() + 
geom line() 

poly.fit <- lm(Y ~ poly(X, degree = 25), data = df) 
df <- transform(df, PredictedY = predict(poly.fit)) 

ggplot(df, aes(x = X, y = PredictedY)) + 
geom point() + 
geom_line() 

我们以 尼限制 地将次数增加 t 夬，但是#一下得到的模型的形状我们就会发现，最终 
似合出柬的投®形状+洱像一个 iK 弦波 r , 而变得歪歪扭扭。造成这个问题的原因就是 
我们使⑴广数椐所无法支持的人过于 a 杂的校型。当我们的模型的次数维持在 1 、 3或 
者5的时候,情况还好,但是当次数增加到25的时候，情况就不妙了。我 们目前 遇到的 
这个 H 题的本质就足过拟合 （ overfitting ) 。 数据越多，就越能够使用强大 rfri 复杂的模 
切。但垃对子一定的数据址柬说，总归有某些模型实在足太过} : 复杂 f 。 我们该怎么避 
免过拟合呢？我们乂该怎么知道3前的模褶已经过拟合了，并赶紧悬康勒马呢？答案 

足在机器学习领域中最重要的两个技术手段- 交义验证 ( cross - validation ) 与正则化 

(regularization) 。 

避免过拟合的方法 

在谈及如 M 避免“过拟合”之前，我们需要先对过拟合有一个严格的定义。我们认为， 
过拟合足指一 个投喂 拟合 r 部分噪声，而不是貞£数据。 m 是，如果不能区分仆么是噪 
声什么是貞正数据，我们又如何判定足否发生了过拟合呢？ 

这里的決窍在干如何定义“真实数据”。对我们而言，一个模型的好坏取决于它能否准 
确颅测来来的末知数据。 rti 于没钉时光机，因此我们没有“未来”的数据，只夯过去的 
数据。幸运的是，我们有变通的 方法： 可以把过去的数据分成两份，用其中一份拟合模 
型，用另一份数据揆拟“将来的”数据。 
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图 6-5: 多项式 回归： a ) 1次多 项式； b ) 3 次多 项式； c ) 5 次多 项式； d ) 25 次多项式 

It 我们举-个简单的 例子： 假设想建立一个预测气温的模型。我们想根据1 〜 6月的数据 
来预测7月的数据。如果想知道哪一个模型最好，我们可以通过1〜5月的数据来训练模 
型，然后将模型应用在6月上来看预测的准确串如何。现在，如果我们假定上述的模型 
拟合过程发生在5月底，那对干当时 （5 月底）的我们而言，就真的是在拿模型预测“未 
来”（目卩6月）的数据了。通过这个例子，我们就知道用类似这种数据拆分的方法，可 
以用“未来”的数据来测试模型。 

交义验证的核心思想，就是在模型拟合的过程中并不使用全部的历史数据，而是保留一 
部分数据，用来模拟未来的数据，对模型进行检验。 
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如果你曾经通读过第 3 章和第 4 章，就不会对这种做法感到陌生。在那些案例中，我们分 
别把数据拆成了训练部分和测试部分，分别用来训练和检验分类模型和回归模型。 

可以说，我们从很小的时候开始，就学会了这种科学的研究方法： 1) 提出假设： 2) 收 
集数据， 3) 验证假设。只是，我们在这里变了一个小戏法——并不是根据已有的全部 
数据提出假设，然后再去收集更多的数据。而是在提出假设的过程中故怠保留一部分数 
据，然后在需要验证假设的时候，又把之前保留的那部分数据像变戏法般地拿出来。 

在将交叉检验方法使用在更复杂应用之前，让我们先针对前面生成的正弦波数据来演示 
一下如何通过交叉检验来帮助选择多项式回归的次数。 

首先，我们再创建一遍正弦数据： 


set.seed(l) 

x <• seq(0, 1, by = 0.01) 

y <- sin(2 * pi * x) + rnorm(length(x), 0, O.l) 

然后，我们要把数据分成两份数 据集： 一份训练集用来拟合模型，另外一份测 K 集用 
来检测模型的效果。可以将训练集当成是过去的数据，而将测试集当成是“未来”的 
数据。在本案例中，我们将数据两等分。而在其他应用中，我们最好将比较多（比如 
80%)的数据作为训练集，而将比较少（比如20%)的数据作为测试集，这是因为，通 
常来说，在拟合模型时，数据越多效果越好。当然，训练集和测试集之间最合适的比例 
是多少，需要具体问题具体分析，当面对实际问题的时候，最好做一下实验来决定最合 
适的比例。接下来，我们先把数据拆分，然后再讨论 细节： 

n <• length(x) 

indices <- sort(sample(l:n, round(0.5 * n))) 
training.x <- x[indices] 
training.y <- y[indices] 

test.x <- x[-indices] 
test.y <- y[-indices] 

training.df <- data.frame(X = training.x, Y = training.y) 
test.df <- data.frame(X = test.x, Y = test.y) 

首先创建一个随机向 It ， 并拿它当做数组下标用来从原始数据屮选取训练集。随机拆分 
训练集和测试集是一个好主意，你肯定不希望训练集和测试集有系统性地差异一比 
如，你可能拿较小的 x 来训练，而拿较大的 x 来测试。 R 语言的 sample 函数可以提供随机 
性，它可以从一个给定的向量中进行随机采样。在上例中，我们创建了一个从1到 n 的整 
数向量，然后从中随机采样一半。一旦确定了下标的值，就可以使用 R 语言的向 tt 索引 
运算符把训练集和测试集分开存放。最后，为了更方便地使用 lm 函数，可以创建一个数 
据框来存放数据。 
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一旦将数据拆分为训练集和测试集之后，可以尝试不同的拟合次数，来看看哪种多项式 
回归效果最好。通过使用 RMSE 来度最效果。为了增加代码的可读性，我们专门写一个 
rmse 函数： 

rmse <- function(y, h) 

{ 

return(sqrt(mean((y - h) A 2))) 


接下来，我们从 1 〜 12 对不同的次数进行 循环： 

performance <- data.frame() 

for (d in 1:12) 

{ 

poly.fit <- lm(Y ~ poly(X, degree = d), data = training.df) 

performance <- rbind(performance, 

data.frame(Degree = d, 

Data = 'Training', 

RMSE = rmse(training.y, predict(poly.fit)))) 

performance <- rbind(performance, 

data.frame(Degree = d. 

Data = 'Test', 

RMSE = rmse(test.y, predict(poly.fit, 
newdata - test.df)))) 

} 

在这个循环的每次迭代中，我们将测试数据 training.df 拟合到一个 d 次多项式，然后分 
別将模型应用到 training.df 和 test.df 上得到对应的训练误差和测试误差。我们将结果 
存放在一个数据框当中，这样当循环结束的时候，可以非常方便地分析结果。 


警告：这里，我 们使用 f 一个与过占不太一样的创建数据框的方法。首先将 performance 变欤初 
始化成-个空的数据框，然后通过 rbind 函数循环地把行数据加入数据框。正如前 ifii 提过 
的，住 R 语言里面，我们可以叫各种各样不同的方法来实现 M —个数据操作 H 的，+过，通 
常情况下，循环都不是最高效的选择。之所以这么用，只是因为 这里的 数据最非常小，而 
且这样写最容易理解，当你写交叉验证代码的时候，请考虑到这一点。 


循环结束之后，我们吋以把尝 W 过的各个次数对应的多项式模型的效果画出来，如图 6-6 
所示： 

ggplot(performance, aes(x = Degree, y = RMSE, linetype = Data)) + 
geom_point() + 
geom_line() 

从图 6-6 中可以清楚地看到，中间大小的次数对应的模型在测 K 数据上的表现坫好。一方 
面，当次数过低，如1或2时，模型没有能拟合到数据的真正模式，在训练集和测试集的 
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数据 

一 训练数据 
测试数据 


• • • • 




_#■ 鲁 




馨 

10 


• 


* 

12 


次数 


效果都非常差。当一个模型过干箾笮，以致连训练数据都拟合得不够好时，称之为欠拟 
合 ( underfitting ) 。 


图 6-6: 交叉验证 

另一方面，当次数太大，如11或12时，吋以看到揆型在测试数据上的表现又开始变差 
了。这是因为模型变得太复杂，拟公了在测甙数据中并+存在的 rfii 在训练数据中 存在的 
噪音。当模型开始拟合训练数据中的噪声时，就称之为发生 f 过拟合。可以从另一个角 
度理解过 拟合： 随次数不断增加，训练误差和测 W 误差变化趋势开始不一致了——训 
练误差持续变小，而测试误差开始变大。 模雙 对干任何它没见过的数据都没有泛化能 
力——这最终导致它过拟合。 

宰运的是，从图中我们知道如何设置次数才能达到最好的效果。如果不使用交叉验证技 



168 


第6章 






术，我们将很难发现这个既+欠拟合乂不过拟合的微妙的中 N 点。 

在简巾.介绍 r 如何通过交义验证来避免过拟合之后，我们将开始 w 论另外一种避免过拟 
合的技术一正则化。尽管我们吋以使用交义验证来 i 正明正则化确实能够避免过拟合， 
W 正则化与交叉验证在本质 h 是完全不同的。不过，我们还足会通过交叉验证来校正 iH 
则化兑法，因此最终这两种方法又是紧密关联的。 

使用正则化来避免过拟合 

在本章屮，我们一直说某个模 型太复 杂，但还没有给“模型复杂度”下一个正式的定 
义。如果要给多项式拟合的揆型定义一个 a 杂度，我们可以说，多项式的次数越高它的 
复杂度越卨。例如，一个2次多项式校型比一个〗次多项式模犁 要复杂 得多。 

不过，这个定义对于都足一次多项式的线性回们并不适) h 。 w 此我们使用 a 杂度的另外 
一个 定义： 我们认为一个模型中特征 的权甫 越大，这个模型越复杂。例如，我们可以认 
为模型 y ~ 5 *x + 2 比 y ~ 3 *x + 2 更复杂。 问样， 我们也认为 y 〜 1 * x A 2 + 1 * 
x + 1 比 y 〜 1 * x + 1 更复杂。为 f 对这个定义有感性认识，我们会使用 lm 函数来拟合一 
个线性投型，通过累加返冋的 coef 值，來度 tt 它的 S 杂度： 

lm.fit <- lm(y 〜 x) 

model.complexity <- sum(coef(lm.fit) A 2) 

在这中.我们累加的实上足权 歲 的平 方， 这是 W 为我们不希望累加时使 iK 负权重互相抵 
消。这里取平方的步骤通常称作 L 2 正則化 ( L 2 norm ) 0 另一种避免正负权重互相抵消 
的方式是累加它们的绝对值,这个方法称作 L 1 正则化 （LI norm ) 0 下面用 R 语言计算了 
L 1 和 L 2 的 结采： 

lm.fit <- lm(y ~ x) 

12.model.complexity <- sum(coef(lm.fit) A 2) 
ll.model.complexity <- sum(abs(coef(lm.fit))) 


这里关 f •模型 IS 杂度的定义"了能看上去有点奇怪，不过一会儿你就会发现，它们确实能 
浓助我们避免过拟合。这是因为，复杂度的定义迫使我们在 训练模 型的过程中，让模喂 
变得尽 fi 简叭。 ft 体细节我们将在第7章 W 论，这里的主要思想是，我们将要在“让模 
型尽童拟合训练数据”与“让模型尽 ft 保持简单”之间做出权衡^这就是数据建模中敁 
关键的一个抉 择： 因为我们要在数据的拟合效果和模型复杂度之间做出权衡，所以婊终 
会在一个比较简单侃是拟 合得+ 够好的模型，和•个比较复杂 m 是拟合得非常好的模型 
之间做出选择。这个权衡，也就是我们所说的正则化，最终避免了揆型去拟合那些训练 
数据中的噪声，进 rfri 避免过拟合。 

现在，让我们看看在 R 语言 中可以用来正则化的 工具。 在本章中，我们会使用 glmnet 程 
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1 0.18290 0.450700 

1 0.25170 0.410600 

1 0.30890 0.374200 


#[51,] 1 0.58840 0.005182 
#[52,] 1 0.58840 0.004721 
#[53,] 1 0.58850 0.004302 
#[54,] 1 0.58850 0.003920 
#[55,] 1 0.58850 0.003571 

以这种方式调用 glmnet 函数，将会得到回 W 揆型所有吋能的正则化结果。结果列表中最 
靠前的是 glmnet 函数执行最强正则化的结果，最靠后的是 glmnet 函数执行最弱正则化的 
结果。这里显示了结果的最前和最后各5条结果。 

让我们解释一下这里展示的10行结果中每一列都是什么含义。这里每一行都包含了3 
列： 1) Df I 2) % Dev ； 3) lambda 0 第一列是 Df ， 它指明模型中的非零权重有几个。但并 
不包括截距项，因为你肯定不想正则化它的大小。知道模型当中的非零权重个数非常 
有用，因为我们通常认为汴不是所有的输入特征都是有用的，如果模型把某些输人特 
征的权重设为0,仍然有比较好的效果，那我们 就吏确 认那些 权重为 0的输入特征是无 
关紧要的。当一个统计模型的大部分输入特征的权重都为0时，这个模型就是稀疏的 
(sparse) 。 当代机器学习研究领域的一个重要课题，就是开发能够得到稀疏统计模® 
的工具。 

第二列是%067,其实就是模型的 R 2 值。第一行的0%是 W 为你把唯一的输入特征权重赋值 


序包，它提供了一个 4 以训练正则化的线性模型的 函数： glmneto 为了了解 glmnet 函数 
是如何工作的，让我们再使用一次正弦波数据： 

set.seed(i) 

x <- seq(0, 1, by = 0.01) 

y <- sin(2 * pi * x) + rnorm(length(x), 0, O.l) 

为了使用 glmnet 函数，首先把向 M 形式的 x 通过 matrix 函数转化成矩阵形式。然后，在 
调用 glmnet 函数时，需要注意这里的参数顺序，在 lm 函数中， y 在 〜操作 符前，而><在~之 
后；而在 glmnet 函数中正好相反： x 是第一个参数， rfiiy 是第二个 参数： 

x <- matrix(x) 

library('glmnet') 
glmnet(x, y) 

#Call: glmnet(x - x, y - y) 

林 

# Df %Dev Lambda 
U [l,] 0 0.00000 0.542800 

# [2,] 1 0.09991 0.494600 


]TJ TJ 
, , , 
3 4 5 

[rL [ 
# # # 
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为0,所以这个模型实际上就是一个常数模型。最后一行的 % Dev 是59%，这个值和你直接 
使用 lm 函数时得到的 R 2 值是一样的，因为 lm 函数没有使用任何正则化。介于完全正则化 
和完全没有正则化的两个极端之间的那些模型的 % Dev 值介于9%〜58%。 

最后一列足 lambda ， 对正则化来说，这是最重要的一个信息。 lamdba 是一个正则化算法 
的参数，这个参数控制了你准备拟合的模型的复杂度。它控制了你最终得到的模型参 
数，因此通常也称 lambda 为超参数 （ hyperparameter ) 。 

我们将会在第7 章中详 细 I 寸论 lambda 的含义，这里仅给出关于 lambda 的一个直观 槪念： 
lambda 很大，说明你对模型的复杂度很在意，你对复杂的模型施以很大的“惩罚”，这 
个惩罚将迫使所有的模型权重趋向干0 ;反之， lambda 很小，说明你对模型的复杂度漠 
不关心，你对复杂的模犁儿乎都不怎么“惩罚”。在极端情况下，我们可以把 lambda 设 
为0,那样将会得到一个完全没有正则化的线性回归模型，就像直接使用 lm 函数得到的 
模型一样。 

不过，通常来说，为了得到…个最优的模型，我们设定的 lambda 是一个大小适中的偯。 
那么如何得到这样一个最合适的 lambda 呢？这就是我们在正则化过程中需要用到交叉验 
i 止的地方了。但这一次，我们并不是对多项式回归的次数进行交叉验证，而是首先设定 
一个比较大的次数，比如10。然后使用不 N 的 lambda 分别在测试集上训练模型，再看它 
们在测试集上的效果如何。通过迭代多次不同的 lambda ， 我们可以找到那个在测试集上 
效果最好的 lambda 。 


警告： 你必须拿测试集来评佔 IH 则化的效果。因为随着正则化程度的增加，模型在训练圯上的效 
果肯定是越来越差的，因此训练集上的效果原则上说没有任何意义。 


按照前面介绍的方法，让我们来实际看一个例子。和以前一样，我们把数据拆分成一个 
训练集和一个测 试集： 

set.seed(l) 

x <- seq(0, 1, by = 0.01) 

y <• sin(2 * pi * x) + rnorm(length(x) > 0, o.l) 
n <- length(x) 


indices <- sort(sample(l:n, round(0.5 * n))) 

training.x <- x[indices] 
training.y <- y[indices] 

test.x <- x[-indices] 
test.y <- y[-indices] 

df <- data.frame(X = x, Y = y) 
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training.df <- data.frame(X = training.x, Y = training.y) 
test.df <- data.frame(X = test.x, Y = test.y) 

rmse <- function(y, h) 

{ 

return(sqrt(mean((y - h) A 2))) 

} 

不过，这一次我们不是对次数进行循环，而是对 lambda 进行循环。幸运的是，我们不必 
每次都重新训练模型，因为只需一次调用， glmnet 函数就已经保存了多个不同的 Lambda 
和它们分别对应的模型。 

library(.glmnet.) 

glmnet.fit <- with(training.df, glmnet(poly(X, degree = 10), Y)) 

lambdas <- glmnet.fit$lambda 

performance <- data.frame() 

for (lambda in lambdas) 

{ 

performance <- rbind(performance, 
data.frame(Lambda = lambda, 

RMSE = rmse(test.y, with(test.df, predict(glmnet.fit, poly(X, 
degree =10), s - lambda))))) 

} 

经过上述处理后，我们已经计算出了不同 lambda 对应的模型的效果，我们可以绘制一张 
直方图，如图 6-7 所示，从图中可以找到在测试集上效果最好的模型对应的 lambda: 

ggplot(performance, aes(x = Lambda, y = RMSE)) + 
geom_point() + 
geom_line() 

从图 6-7 中可以看出，当 lambda 接近 0.05 时，模型效果最好。因此我们可以用这个 lambda 
在完整的数据集（包括训练集与测试集在一起的所有数据）上训练一个 模型： 

best.lambda <- with(performance, Lambda[which(RMSE == min(RMSE))]) 
glmnet.fit <- with(df, glmnet(poly(X, degree = 10), Y)) 

当我们在完整的数据集 t 训练出模型之后，可以通过 coef 来査看正则化的模型的 结构： 

coef(glmnet.fit, s = best.lambda) 

#11 x l sparse Matrix of class "dgCMatrix" 


# 

1 

#(Intercept) 

0.0101667 

#1 

-5.2132586 

林 2 

0.0000000 

#3 

4.1759498 

#4 

0.0000000 
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0.2 0.3 

Lambda 


#5 

-0.4643476 

#6 

0.0000000 

#7 

0.0000000 

#8 

0.0000000 

#9 

0.0000000 

#10 

0.0000000 


正如可以从这个结果表中看到的，虽然有10个特征可供选择，但实际上我们 M 使用了3 
个。这正是正则化背后的主要 思想： 宁愿选择像这样比较简单的模型，也不选择复杂的 
模型。有了正则化这个工具，我们可以采用一个较高次数的多项式进行拟合，也不用担 
心过拟合问题。 

在熟悉 r 正则化的基本概念之后，让我们来看一下本章的案例研究。 



图 6-7: 不同 lambda 下的正则化 
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文本回归 

交叉验证和正则化足两个非常强大的工具，可以使我们使用复杂的模型描述数据中隐藏 
的复杂模式，又不至干过拟合。应用正则化最有趣的案例之一，就是使用文本信息来预 
测一些连续的输出值。例如，我们可以根据-只股票的 IPO 招募书，来预测它股价的波 
动情况。当我们使用文本作为一个回归模型的输入时，输入特征个数（单词）儿乎总是 
比样本数（文档）多。即使样本数比 1 -grams (单个词）多，我们还可以使用 2 -grams (2 
个词一 组）或 3 -grams (3 个同一组），所以最终，我们的 n - grams 还是会多过文档数的。 
因为数据集的列数比行数多，非正则化的线性冋归总是会生成一个过拟合的模型。基于 
这个原因，为了得到有用的结果，我们必须使用一些正则化的手段。 

为广便于理解，我们会找一个简单的案例来研究——根据 O ’ Reilly 出版社出版的 销董前 
100 的畅销书的封底描述文本来预测它们的相对流行程度。为了把这些文本描述转变成 
可用的输入集合，我们会把每本书的描述转化成一个由不同单词出现次数构成的向景， 
这个向量会保 存诸如 “ the ” 和 “ Perl ” 这样的单词在这些畅销书的描述中出现的次数。 
从理论上说，我们的研究成果将会得到一组“神奇的单词”，只要某本书的封底描述里 
包含了尽量多的这些神奇单词，它就能畅销。 


警告： 当然，这个预测任务也许根本就是不可能完成的。这可能是模型给一些随机的单 W 赋了 

较高的权重造成的。也就是说，在那些畅销的 O ’ Reilly 出版社出版 的书籍 的描述刍屮，几甲 • 
没有什么相 M 的单词，但模型并不知道这些，因此它仍然会为了拟合模型而给一些单词附 
h 权東。这样的话，模型得到的结果并不会告诉我们这些单词有什么用。这个问题未必会 
在我们这个案例中发生，佴是在做文本回归的时候有这个意识是非常重要的。 


t 先， U: 我们利用在第 3 章使用过的 tm 程序包把原始数据加载进来，再把原始数据集转 
化成一个文档词项 矩阵： 

ranks <- read.csv('data/oreilly.csv', stringsAsFactors = FALSE) 
libraryC tm') 


documents <- data.frame(Text = ranks$Long.Desc.) 
row.names(documents) <- l:nrow(documents) 


corpus <- Corpus(DataframeSource(documents)) 

corpus <- tm_map(corpus, tolower) 

corpus <- tm_map(corpus, stripWhitespace) 

corpus <- tm_map(corpus, removeWords, stopwords('english')) 

dtm <- DocumentTermMatrix(corpus) 


在这里，我们首先把 CSV 文件中的数据加栽到 ranks 变量中，创建一个 tm 可以理解的、其 
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中包含了书籍描述的数椐框，然后基于这个数据框创建一个语料库，将文本中的 单词全 
部统一成小写，去掉多余的空格， 刪 掉英语中最常见的停用词，然后创建我们的文档词 
项矩阵。做完上面这些工作，数据预处理的 I :作就算完成了。接下来，我们要将变量做 
一些小小的操作变换，来把回归问题转化成 glmnet 函数可以处理的 形式： 

x <- as.matrix(dtm) 
y <- rev(l:lOO) 

在这里，我们把文裆词项矩阵转变成一个简单的数值矩阵，以方便后续处理。同时，我 
们把颅测的 y 值和排名颠倒过来对应一下——这样排名第一个书的 y 值是100 ,而排名第 
100 的书的 y 值是1。我们这么做是为了让那些能预测书籍流行度的黾阗的权重是正的。 
如果我们直接使用原始的排名而不逆序处理，那些能预测书籍流行度的单词的权 重将会 
是负的。我们觉得这+那么直观，当然，这两种编码方式在本质上并没有差别。 

最后，在运行问归分析之前，我们初始化随机种子，并且加载 glmnet 程 序包： 


set.seed(l) 
library('glmnet') 

初始化工作结束之后，我们可以对几个可选的 lambda 进行循环，来看一下哪一个 lambda 
能在测试集上得到最好的效果。因为数据并不多，所以对于每一个 lambda ， 我们执行50 
次不同的数据拆分，以提髙我们评估正则化效果的准确程度。在下面的代码中，我们首 
先为 lambda 设定一个值，然后将数据拆分成不同训练集和测试集50次，再分別评 f 占毎- 
次拆分的效果。 


performance <- data.frame() 

for (lambda in c(0.1, 0.25, 0.5, 1, 2, 5)) 

{ 

for (i in 1:50) 

{ 

indices <- sample(l:l00, 80) 
training.x <- x[indices,] 
training.y <- y[indices] 

test.x <- x[-indices,] 
test.y <- y[-indices] 

glm.fit <- glmnet (training, x, training.y) 
predicted.y <- predict(glm.fit, test.x, s = lambda) 
rmse <- sqrt(mean((predicted.y - test.y) A 2)) 

performance <- rbind(performance, 

data.frame(Lambda = lambda. 
Iteration = i, 

RMSE = rmse)) 
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所有这些 lambda 对应的模型的效果都计兑完毕，我们就可以比较出哪一个模型表现最 
好： 


图 6-8: O’Reilly 书籍销量预测模型在不同 lambda 下的结果 

ggplot(performance, aes(x = Lambda, y = RMSE)) + 

stat summary(fun.data = 'mean cl boot', geom = 'errorbar') + 
stat summary(fun.data = 'mean clboot', geom = 'point') 

遗憾的是，从 ffl 6-8 中我们发现，我们为数据建立一个统计模型的尝 W ： 失败了，这足本书 
中这么多 次尝试 中的第 -次。 显然，随着 lambda 越来越大，模喂的表现越来越好——但 
这种情况只有在模型简化到 r 一个常数模型时才会发生。这说明它根本没有使用任何文 
本信息。简而言之，我们的文本回归模型没有发现任何有意义的信息。当应用模型到测 
试集上时，我们发现，它给出的预测完全是随机噪声。 
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尽管这意味肴 期嗜屮 的能保 iiH 我们的书畅销的“神奇的单词”并不存在，但这对于任何 
一个在机器学习领域工作和学习的人来说，都是需要学习的重要 一课： 有时候，我们在 
数据中找不到任何模式。正如 John Tukey 所说： 

数据中也许并没有答案。有一堆数据和对答案的热切渴望，并不能确保真的能从这 
准数据中提取出合理的预期答案。 

逻辑回归来帮忙 

m 我们手头的这份数据也不致-无是处。虽然+能创建一个从文本预测排名的工具，但 
我们也汴可以尝试-些简单的，比如说预测一下某本书能否进入销量排名前50名。 

为 n 故到这一点，我们要把这个回归问题转变成一个分类问题。我们不再预测从1到无 
匁人的徘名，转而做一个简单的二分 判断： 这本书能否进人销屢:前50名？ 

这个二分判断…常简单明 r ， w 此我们有理山相信能从这个较小的数据集中得到一呰冇 
用的 信息。 首先， lb 我们为数据集增加一个类別 标签： 

y <• rep(c(l, o), each - 50) 

在这里，我们使用了在第2章使用过的0/1虚拟变最编码，如果一本书在销最排行榜前50 
名就用1表示，否则用0表示。采用这样的虚拟变量，我们就吋以使用在第2京结尾介绍 
的逻辑回归模型分类兑法 来预测 一本书能否出现在销 tt 排行榜的前 5() 名。 

逻辑 MW ， 本质上是一种 Ml 月，它预测的其实是一个样本属干两个类别之中某一个的槪 
申值。因为槪+值总是介于0〜1，所以我们可以以 0.5 作_值来创建一个分类 ?): 法。除了 
输出介 T 0 〜丨以外，逻辑 回归本 质上和线性冋归是一致的。唯一的区别是你需要根据输 
出足否高于阈值来做出一个分类判断。首先我们会向你演示一下，在 R 语言中使用逻辑 
回归迠多么简单，然后再来完成婊后的阖值判断的过程。 

首先，我们要用全体数据来拟合-个逻辑回归模型，这很 简单： 
regularized.fit <- glmnet(x, y, family = * binomial*) 

勺 前面为 r 做线 性冋汩 而调用 glmnet 函数的唯一区别在于，在这里我们调用 glmnet 时增 
加 T 一个额外的 family 参数，这个参数控制 f 预测的误差类型。我们在第5章没有详细 
i 寸论误差族，线性回归假定误差服从卨斯分布，而逻辑 W 归模型假定误差服从二项分布 
(hinomially distributed) 。 我们并+会讨论：项分布的细节，不过你应该知道这足掷硬 
HI 时会得到的一个分布。基干这个原因，二项分布产生的误差是 0 或1，当然，就是分类 
问题需要使用的误差族。 
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为了详细说明，我们看一 F 调用 glmnet 闲数 的三种 方式： 

regularized.fit <- glmnet(x, y) 

regularized.fit <- glmnet(x, y, family = ’gaussian.) 
regularized.fit <- glmnet(x, y, family = 'binomial') 

第一种调用方式，是我们之前做线性冋旳时使用的。第二种调用方式与第一种调用方式 
完全等价， U 是我们&式地指明了 family 的默认 参数： gaussian 。 第三种调用方式是我 
们采用逻辑回归时使用的调用方式。正如你所看到的，从线性 M 归到逻辑回! / J ， 你所需 
要做的，仅仅是改变误差族参数& 2 。 

从全体数据拟合出一个逻辑回归模型之后，让我们看一下对模型使用 predict 函数会得到 
什么样的预测 结果： 


predict (regularized, fit, newx = x, s = 0.001) 

#1 4.884576 

#2 6.281354 

#3 4.892129 

參•雛 

#98 -5.958003 

#99 -5.677161 

#100 -4.956271 

如你所见，输出结果包含了正数和负数，而并不是我们所期望的0或1。我们有两种办法 
来处理原始的输出。第一个方法是以0为 阖值， 使用 ifelse 函数来做出0/1的 预测： 

if else (predict (regularized, fit, newx = x, s = 0.001) > 0, 1, 0) 

林 l l 
#2 1 
#3 1 

• • • 

#98 0 
#99 0 
#100 0 

第二种方法是把原始预测输出转换成我们更容易理解的概率值，这样我们还是需要以 0.5 
为阈值 来给出和前面一样的0/1预测。为了把逻辑回归的原始预测转换成槪率值，我们需 
要使用 boot 程序包的 inv . logit 函数： 

libraryCboot 1 ) 

inv. logit (predict (regularized, fit, newx = x, s = 0.001)) 


注 2: 其实还可以使用很多其他的误差族，不过要讲清楚这部分内容需要整整一本书、因此我们 
鼓励读者阅读相关资料！ 
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#1 0.992494427 

#2 0.998132627 

#3 0.992550485 

籲•暑 

#98 0.002578403 
#99 0.003411583 
#100 0.006989922 

如果你想知道 irw.logit 的细节，我们建议你去看一下这个函数的源代码，以便槁清楚 
这里面数学运算的细节。针对本案例的目的来说，我们仅仅希望你能了解，逻辑回归校 
型的输出需要经过逆 logit 函数转换才能变成概串输出。基干这个原因，逻辑回归也称为 
logit 模型。 

无论使用哪种转换方式将逻辑回归的输出转换成0/1，这都没有关系， 重 耍的足逻辑回 
归为你提供了 -个分类工具，这个工具可以让你像在第5章使用线性回归那样容易地进 
行分类。那么， U ： 我们来看一下，使用逻辑回归来预测书籍能否进入畅销排行榜前50名 
的效果怎样。可以发现，这里的实现代码与前面用来预测排名的线性回归的代码相差不 
大： 


set.seed(l) 

performance <- data.frame() 

for (i in 1:250) 

{ 

indices <- sample(l:l00, 80) 
training.x <- x[indices,] 
training.y <- y[indices] 

test.x <- x[-indices,] 
test.y <- y[-indices] 

for (lambda in c(0.000l, 0.001, 0.0025, 0.005, 0.01, 0.025, 0.5, 0.1)) 

{ 

glm.fit <- glmnet(training.x, training.y, family = 'binomial') 
predicted.y <- ifelse(predict(glm.fit, test.x, s = lambda) > 0, 1, o) 
error.rate <- mean(predicted.y != test.y) 

performance <- rbind(performance, 

data.frame(Lambdd = lambda, 

Iteration = i, 

ErrorRate = error.rate)) 


这一部分代码与前面使用过的线性回归代码的差异有如下几个方面：丨）对干 glmnet 函 
数的调用，在逻辑回归中，我们使用的是二项分布的误差族参数； 2) 对逻辑冋归的原 
始输出 进行阖 值转换后变成0/1预测结果； 3) 使用错误率而+是 RMSE 来度景模犁的效 
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果。另外•个你" I 能已经注怠到的差別在 f ， 我们执行拆分的循环次数是250 次而 不是 
50次，我们这么做的目的是为了对不同 lambda 对应的错误率有更准确的估计。因为我们 
发现错误率最终变得非常接近50%，而我们希望确定模型的预测结果比随机猜一个的结 
果要好。为广让循环更髙效，我们交换了 lambda 循环和拆分循环次序，这样我们就不必 
为每一个 lambda ® 新做多次拆分了。这节了不少时间，这提醒我们，编写高效的机器 
学习代码需要你像一个优秀的程序员那样有高效的编码习惯。 

我们对效果比较感兴趣，接下来把不同的 lambda 对应的错误率画在直方图上，如图 6-9 所 


ggplot(performance, aes(x = Lambda , y = ErrorRate)) + 

statsummary(fun.data * •meanclboot•, geom = 'errorbar') + 
stat summary(fun.data = 'mean cl boot', geom = 'point 1 ) + 
scale_x_loglO() 

结果告诉我们，把 W 归改成分类的尝试还是比较成功的。使用较小的 lambda ， 我们预测 
一本书能否进入热销榜排名前50的效果比随机猜要好，这很令人欣慰。看来，这份数据 
尽管还不足以 U ： 我们拟合出一个复杂的可以预测悱名的工具，但是却足够让我们拟合出 
一个比较简单的，仅仅预测书籍能否进入热销榜前50名的分类器。 

让我们以这样一个普适性经验来结束这 一章： 有时候，简单的反而£好。为了在 测试数 
据上有更好的效果，正则化迫使我们选择简单的模型。将回归模型转变成分类模型通常 
幺 ih 你得到 更好的 效果，因为有时候你手头上的资源（数据等）足够训练出一个简单的 
二分分类器，却不够训练出一个复杂的直接预测排名的工具。 
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第 7 章_ 

优化7¥码破译 


优化简介 

目前为止，本书中接触到的算法对我们来说都是黑盒，我们只关注理解输入和输出是什 
么。本质上，我们把机器学习算法看做由一组函数组成的软件库，用它来完成预测任 
务。 


在本章中，我们将会关注一些用来实现基础机器学习算法的技术。首先，基于前面的知 
识写一个函数拟合只有一个输入变量的线性回归模型。这个例子可以让我们把从数据 
中拟合一个模型看成是一个优化问题。我们可以这样来理解优化问题：假设有一台机 
器，机器上有一些把手，我们可以操作这些把手来对机器进行不同的设置，然后可以衡 
最这台机器在当前设置 r 运行的效果如何。我们希望找到对这台机器的一种最佳设置， 
在某些简单的度釐标准下，使得这台机器运行的效果最优。这个最佳设置称为最优点 
( optimum 〉 。达到最优点的过程称为优化 ( optimization ) 0 

在理解了优化的原理之后，我们会着手处理本章的主要 工作： 构建一个简单的密码破译 
系统，它把解密一串密文当做一个优化问题。 


因为需要写一个线性回归函数，所以再次使用前面章节中的身高和体重数据来举例。正 
如之前做过的那样，假如知道了一个人的身高，我们就可以通过一个函数来计算其体 
重。特別地，假定这是一个线性函数，用 R 语言描述如下 所示： 

height.to.weight <- function(height, a, b) 

{ 

return(a + b * height) 
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在第 5 茕中，我 们详细 H 论了如何使用 lm 函数来计算这个线性函数的斜率和截距。在上 
面这个案例中，变董 b 是斜率，而变 * a 是截距，相当干一个身高是0的人的体重应该是多 

少。 

有了这个函数之后，我们怎么知道 a 和 b 取什么值最好呢？这就是我们使用优化的 地方： 
首先要为这个根据身高来预测体重的函数的效果定义一个度读标准，然后改变 a 和 b 的 
值，尝试来优化闲敉的效果，直到函数的效果不能再改进为止。 

我们该怎么做到这-切？其实 lm 函数匕经都替我们做完了。它会首先优化一个简单的误 
差函数，然后通过一种非常特殊的算法找到最优的 a 和 b ， 当然这个特定的算法仅适用 f 
普通的线性冋归。 

tt 我们先看看 lm 函数得到的 a 和 b 的值： 

heights.weights <- read.csv('data/Olheightsweightsgenders.csv') 

coef(lm(Weight ~ Height, data = heights.weights)) 

^(Intercept) Height 
#-350.737192 7.717288 

为什么这样的 a 和 b 的值是合理的？为了回答这个问题，我们需要知道 lm 函数使用的是什么 
误差函数。我们在第5章曾简单提到， lmrt 数是墓于平方误差的，它的 T 作原理 如下： 

1 . 选定3和1): 

2 . 输人一个身高，预测对应的体 

3. 误差=真实的体重-预测的体重； 

4. 将误差 平方： 

5. 累加所有的训练样本的平方误差。 


注意： 为了便千理解，我们通常对累积误差取平均，冉幵方处理。不过，对干优化而言，这没必 
要，只计算累加的平方误差可以节省一点点运算时间。 


最后两步是紧密相 关的： 如果我们不把误差累加起来，对误差取平方没有意义，而如果 
我们不对误差进行平方，而直接将第3步得到的原始误差累加起来，最终正负误差会互 
相抵消而为0。 


注意：要证明这-点并不难，不过这需要一苎代数运算，这并不是本朽准备 W 论的话题。 


让我们来看一下具体的实现 代码: 
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squared.error <- function(heights.weights, a, b) 

{ 

predictions <- with(heights.weights, height.to.weight(Height, a, b)) 
errors <- with(heights.weights, Weight - predictions) 
return(sum(errors A 2)) 

} 

为广对这个过程有一个感性认识， F 面把特定 a 和 b 值对应的 squared . error 计算出来，如 
表7-1所不： 

for (a in seq(-l, 1, by : 1)) 

{ 

for (b in seq(-l, 1, by = l)) 

{ 

print(squared.error(heights.weights, a, b)) 

} 

} 

表 7-1: —组 a 和 b 的值对应的平方误差 

a b 平左误差 

-1 -1 536271759 

| _ 

-1^ ^ 0 ] 274177183 

-1 1 100471706 

0_ 531705601 

0 0 270938376 

0 ? 98560250 一一 

1 -1 527159442 

1 0 267719569 

1 1 96668794 

正如你看到的，某些 a 和 b 对应的 squared . error 比其他的 a 和 b 要小得多。这表明，我 
们现在 Li 经有一个合适的函数来定义什么是 a 和 b 的“最佳”值。这是优化问题的第一 
步： 找到一个我们想要最大化或最小化的度1:标准。这个度量标准通常称为 H 标函数 
(objective function) 。 接卜‘来优化问题就变成了寻找锒合适的 a 和 b, 使得 H 标函数尽可 
能小或者尽可能大。 

一个最显而易见的方法称为 M 格搜索 （grid search) : 为不同的 a 和 b 创建一个像 我们刚 
刚展示的那样的表格，为表格中所有的 a 和 b 计算对应的 squared . error ， 然后选择最小的 
squared . error 对应的 a 和 b 的值。因为这种方法保 i 止在你列举的表格中，总是能找到域伴. 
的 a 和 b ， 所以这种方法也算合理。不过，它有一些非常严重的 问题： 

• 该如何选择表格中各个变量之间的间隔？ a 选择0、1、2、3合适吗？或者 b 选择0、 

0.001、0.002、 0.003 合适吗？换句话说，搜索的步长是多少？要回答这个问题，需 
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要间时 if 估确定哪种选择的信息量更大，这个评估过程的计算最作常大，事实上还 
需要对搜索步长进行优化，这样就引入了另一个优化问题。如此下去，将陷入无限 
的循环。 

• 如果你想要搭建一张包含2个变量，每个变量有10个可选值的表格，那么这张表格 

需要有100行。不过，如果你想评估10个变量，每个变量有100个可选值，那么你需 
要一张行数为10的100次方的表格。这种问题规模呈指数增 K ： 的情况在机器学习领 
域非常普遍，称为维度灾难 (Curse of Dimensionality ) 0 

如果想对上百甚至上千的输人特征进行线性回归，网格搜索就不是一种合适的优化算 
法。那么我们该怎么办？幸运的是，计算机科学家和数学家们研究优化问题已经很长时 
间了，汴 n . 实现了一批现实可行的优化算法。在 r 语言中，如果遇到一个优化问题，通 
常第一选择是尝试 optim 函数，这个函数封装了大多数主流的优化算法。 

为了展示如何使用 optim 函数，我们将使用它来拟合线性回归模型。我们希望通过 optim 
函数得到的 a 和 b 的值与我们直接调用 lm 函数得到的值不会相差 太多： 

optim(c(0, 0), 

function (x) 

{ 

squared.error(heights.weights, x[l], x[2]) 

}) 

#$par 

#[l] -350.786736 7.718158 

林 

#$value 
#[l] 1492936 
# 

#$counts 

#function gradient 
n in na 

林 

#$convergence 
#[l] 0 
# 

#$message 

#NULL 

如上例所示， optim 函数需要一些额外的参数。首先，你需要把打算优化的参数封装在 
一个数值向量里，并将其当做第一个参数传递给 optim 函数。在这个例子中，我们要优化 
的是 a 和 b ， 默认的初始数值向量就应该是 c (0, 0)。接下来，你需要传递的第二个参数是 
一个函数，这个函数接受一个数值向量（例子中的 x ) 作为输人，这个数值向量包含了你 
想要优化的 U 标变量。因为通常写的函数都包含不 N 的名字的多个参数，因此需要将误 
差函数封装到一个只接受一个参数的匿名函数里。在这个例+里，你可以看到是如何封装 
squared , error 函数的。 
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运行 optim 函数，我们会分别得到 a 和 b 的值，它们保存在 par 变最里面。我们肴到 a 和 b 的 
值和直接通过 lm 函数得到的值非常接近，这说明 optim 函数是正确的& 1 。实际上， lm 函数 
使用了专门适用于线性回归的算法因此它得到的值比 optim 函数更精确一些。不 
过，如果你打算解决的优化问题并不是线性回归，那么 optim 函数还是很好的选择。 

接下来了解一下从 optim 函数得到的其他返 回值： 第一个是 value 函数，这 个值告 诉我们 
在 optim 函数返回的最优点时，平方误差值具体是多少。第二个是 counts , 它告诉我们 
optim 函数分别执行了输人函数（名为 function ) 以及梯度 ( gradient ) 多少次。 


注意： 如果你不明 U “梯度”是 什么意 思，没关系。由于我们不喜欢手动计箅梯度，因此通常都 
把梯度计算的工作留给 optim 函数自己去做，而不特別指定任何的梯度参数。到目前为止， 
一切还好，不过你的情况可能不一样。 


第三个是 convergence ， 它告诉我们 optim 函数是否足够有把握找到最优点。如果一切没 
问题，那么它的值应该是0。而当它非0时对应的错误信息可以在 optim 函数的帮助文档 
中找到。最后， message 变景保存了任何可能对我们有用的其他信息。 

总而言之， optim 函数基于一些微积分的知识帮助我们完成了优化的过程。因为它依赖作 
常复杂的数学推导，所以我们并不去研究它内部究竟是怎么做到的。不过，我们吋以用图 
表的方式非常直观地展示一下 optim 函数是怎么做到的。假定你首先确定 b 为0 ,然后想找 
到最优的 a 。 你可以用下面的代码来计算平方 误差： 

a.error <- function(a) 

{ 

return(squared.error(heights.weights, a, 0)) 

} 

为了找出最优的 a ， 你可以把平方误差看成是 a 的函数，并把它们的函数关系使用 curve 函 
数画出来， curve 函数能够 I 十算一个函数或表达式在不冏输人下的对应输出值，然后把不 
同输入和对应输出值画出来。在下面的例子里，针对不同的 x 值计算 a . error ， 鉴 fRift 言 
在表达式计算时的怪异语法，我们需要使用 sapply 函数来帮忙。 

curve(sapply(x, function (a) {a.error(a)}), from = -1000, to = 1000) 

从图 7-1 来看，似乎有一个单独的 a 值是最优的，远离 a 的其他任何点的平方误差都会变得 
更大。当情况如此时，我们认为存在一个全局最优点 (global optimum) 。 在这样的情 
况下， optim 函数一旦计算了某一个 a 对应的误差函数值，就吋以利用形状信息知道它下 

注1: 或者至少它和 lm 函数一样槽糕。 

译注丨：此处是指最小二乘法 a 
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一步应该往哪个方向找寻下一个更优的 a 。 optim 函数利用这个局部信息来学习你的问题 
的整体结构，因此它可以非常快速地找到最优点。 


-1000 -500 0 500 1000 

x 


图 7-1: 改变 a 时的不同平方误差 

为了对整个回归问题有更好的理解，我们同样也要看一下，改变 b 的时候误差函数是怎 
么变 化的： 

b.error <- function ( b ) 

{ 

return ( squared . error ( heights . weights , 0, b )) 

} 

curve ( sapply ( x , function ( b ) ( b . error ( b )}), from * -1000, to = 1000) 

从图 7-2 来看，似乎误差函数对 b 来说也有一个全局最优点。考虑到前面我们发现对于 a 也 
有一个全局最优点这一事实，这意味着 optim 函数应该可以在全局找到最优的 a 和 b ， 来最 
小化我们的误差函数。 



0+9CVI1 60+s oo ({ 60+S .寸 00J0.0 

0 ^^ 
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图 7-2: 改变 b 时的不同平方误差 

一般来说，我们可以认为，基干微积分的数学原理，由于 optim 函数可以同时对所有的变 
最一起 优化，因此 optim 函数才能够达到优化的目的。之所以它比网格搜索要快，是因为 
它可以利用当前点的信息来推断出当前点周围点的信息。这让它知道接下来它应该向哪 
个方向去寻找最优点。正是这种自适应性的工作方式使得它比网格搜索要高效得多。 

岭回归 

对干如何使用 optim 函数，我们算是人门了，接下来可以使用优化算法来实现自己版本 
的岭回归 (ridge regression ) 了。岭回归是一种特殊的回归，其中包含了正则化，正如 
我们在第6章所说的。岭回归与普通的最小二乘回归算法的唯一区别 在于： 岭回归把回 
归系数的本身当做误差项的一部分，这促使回归系数变小。在本案例中，会倾向于选择 
更接近0的斜率和截距。 



除了改变误差函数以外，岭回归增加的唯一复杂度在干，我们需要引入一个额外的参 
数 lambda ， 这个参数用来权衡我们是希望有较小的平方误差，还是希望有较小的 a 和 b 以 
避免过拟合。这个额外引入 iH 则化算法里面的参数称为超参数，在第6章普经简单介绍 
过。一旦选定了 lambda , 可以写出如下所示的岭回归误差 函数： 

ridge.error <- function(heights.weights, a, b, lambda) 

{ 

predictions <- with(heights.weights, height.to.weight(Height, a, b)) 
errors <- with(heights.weights. Weight - predictions) 
return(sum(errors A 2) + lambda * (a A 2 + b A 2)) 

} 

正如在第 6 章所说的，我们可以使用交义验证来选择最合适的 lambda 。 在本章余下的内鞞 
中，我们假设你已经这么做了，并且假设选定的最优的 lambda 是 L 

当我们定义好了岭 回归的 误差函数时，调用 optim 函数来求解 岭回归 H 题，就如同求解 
普通的敁小二乘问题一样简 单了： 

lambda <- 1 

optim(c(0, 0), 

function (x) 

{ 

ridge.error(heights.weights, x[l ], x[2], lambda) 

» 

#$par 

#[l] -340.434108 7.562524 

# 

#$value 
#[1] 1612443 
# 

#$counts 

#function gradient 

# 115 NA 

# 

#$convergence 
#[1】0 
n 

#$message 

#NULL 

看一下 optim 函数的输出就会发现，得到的线性函数的截距是-360,斜率是7.7, 都比迕 
接使用 lm 函数得到的结果略微缩小了一些。在这个仅仅作为示意的例子中，这没有什 
么太大的惫义，不过在第6章中运 行的大 规模回归中，为较大的回归系数增加一个惩罚 
项，会帮助我们得到更有意义的结果。 

除了观察拟合出来的系数以外，还可以 S 复前囱调用过的 curve 函数，观察为什么 optim 
函数对岭回归也适用。结果如图 7-3 和图 7-4 所示。 
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图 7-3: 改变 a 时的岭误差值 


a. ridge.error <- function(a, lambda) 

{ 

return(ridge.error(heights.weights, a, 0, lambda)) 

} 

curve(sapply(x, function (a) {a.ridge.error(a, lambda)}) 

b. ridge.error <- function(b, lambda) 

{ 

return(ridge.error(heights.weights, 0, b, lambda)) 


curve(sapply(x, function (b) {b.ridge.error(b, lambda)}) 



图 7-4: 改变 b 时的岭误差值 


但愿这个例子能够让你相信，只要理解了如何使用 optim 函数来最小化一些预测误差， 
就可以明白很多机器学习问题。我们非常鼓励你在自己的例子上应用 optim 函数，并且 
尝试一下自己“发明”的各种不同的误差函数。这对你非常有用，特别是，当你尝试使 
用 T 曲‘的绝对值误差函 数时： 

absolute.error <- function 
(heights.weights, a, b) 

{ 

predictions <- with(heights.weights, height.to.weight(Height, a, b)) 
errors <- with(heights.weights, Weight - predictions) 
return(sum(abs(errors))) 

} 

根据微积分的相关原理可知，这个误差函数在 optim 函数里工作得不那么好。如果没有扎 
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实的微积分 基础， 可能很难完全理解这里的原因，不过还是可以使用 curve 函数，以可视 
化的方法来对原因稍加阐 释的： 


a.absolute.error <- function(a) 

{ 

return(absolute.error(heights.weights, a, 0 )) 

} 

curve(sapply(x, function (a) {a.absolute.error(a)}), from = -1000, to = 1000) 

正如你在 阁7-5 中所看到的那样，绝对值误差曲线要比平方误差成者岭误差曲线锋利的 
多。£因为它太锋利了，以致 optim 函数无法通过一个单独的点来获知它该向哪个方叫前 
进的信息，进而无法达到全局 ft 优，尽管我们可以很清楚看到确实存在一个全局最优点。 


图 7-5: 改变 a 时的绝对值误差 

因为有些强大的机器学习算法并不能与某些类型的误差函数相匹配，所以机器学习的精 
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妙之处就 在干： 你需要知道什么时候可以使用类似 optim 这样的简单工具，什么时候乂 
需要使用更强大的工具。确实有算法可以解决绝对值误差优化，不过，这已不在本朽讨 

论范围内。如果你真的对这个问题感兴趣，那么请你身边的高等数学高手给你讲 讲凸优 
ft (convex optimization ) 口 巴。 

密码破译优化问题 

和回归问题一样，几乎所有的机器学习算法，都可以看做最小化某种预测误差的优化问 
题。不过有时候，输入并不是简单的数值，因此使用 optim 函数计算一个黾独点的误差 
函数汴能提供它周围点的足够信息。对于这样的问题，你可以简单地使用 M 格搜索， 
当然还冇其他更好的方法。我们会关注其中一个很直观乂很强大的方法。我们称这个方 
法的大致思想为随机 优化： 在可选的输人参数范围内，一定程度上随机地移动参数，不 
过 要保证 移动参数的方向是误差减少的方向而不是增加的方向。这个方法与好 多你可 
能行所〗 f 闻的优化算法有关，包括模拟退火算法、遗传算法以及马尔可夫链蒙特卡洛 
(Markov Chain Monte Carlo , MCMC ) 方法。本章中我们打算使用的算法是 Metropolis 
方法，各种不 ㈣ 版本的 Metropolis 方法是众多流行的现代机器学习算法的基础。 

我们将佘通过本章的案例 研究： 密码破译，来演示 Metropolis 方法。由于我们定义的算 
法汴小是一个非常高效的解码系统，因此它不能被貞正地用在实际产品系统中，不过把 
它当做如何使用 Metropolis 方法的示例，却是一个不错的选杼。史重要的是，这个例 f 
将告诉 我们： 有些问题根本无法通过大多数类似 optim 函数这样现成的优化算法解决。 

那么， U : 我们先来描述一下 H 题： 已知 —• 串使用镑代密码 （substitution cipher , 又称替 
换密码或腎换密码）加密的密文，我们该使用什么样的代替规则来解密密文得到原义 
呢？如果你不太熟悉替代密码也没关系，它是最简单的加密算法，它简争地把明文中的 
一个字母用另一个固定的字母替代，生成密文。尺0丁13& 2 加密可能是婊有名的例了-，当 
然你也 <能听过凯撒密码 （caesar cipher ) 。凯撒密码是一种非常简单的加密方式，你把 
U -个字母替换为字母表中它下一位的字母 即可： “ a ” 变成 “ b ” ， “ b ” 变成 “ c ” ， 
“ c ” 变成 “ d ” 。（这是一个首尾相连 的环： “ z ” 变成 “ a ”） 。 

为了解释如何在 R 语言中使用加密算法，让我们先在 R 语言中实现凯撒密码： 
english.letters <- c('a' , 'b', 'c', 'd*, 'e', 'f', 'g', 'h*, 'i', 'j', 'k', 



caesar.cipher <- list() 


注 2: ROT13 把每个字母替换成它在字母表后第 13 位的那个字母 „ “a” 变成 n, “b ” 变成 

“o” ，以此类推。 
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inverse.caesar.cipher <- list() 

for (index in 1 : length(english.letters)) 

{ 

caesar.cipher[[english.letters[index]]] <- english.letters[index %% 26 + l] 
inverse.caesar.cipher[[english.letters[index %% 26 + l]]] <- english.letters[index] 

} 

print(caesar.cipher) 

有了加密算法之后，让我们写一个将明文加密成密文的 函数： 

apply.cipher.to.string <• function(string, cipher) 

{ 

output <-'' 

for (i in l:nchar(string)) 

{ 

output <- paste(output, cipher[[substr(string, i, i)]], sep = _•) 

} 

return(output) 

} 

apply.cipher.to.text <- function(text, cipher) 

{ 

output <- c() 

for (string in text) 

{ 

output <- c(output, apply.cipher.to.string(string, cipher)) 

} 

return(output) 

} 

apply.cipher.to.text(c('sample', 'text'), caesar.cipher) 

现在我们已经有了一些处理密码的基本工具了，可以开始考虑如何破译密码了。就像处 
理线性回归的思路一样，我们会把破解替换密码的问题拆分成几个 步骤： 


1 . 为每一种解密规则定义一个解密效果度最。 

2. 定义一个基于目前已知的解密效果最优的解密规则的算法，对它进行随机修改来生 
成一个新的解密规则。 

3. 定义一个算法，可以递进地生成破译效果逐渐变好的解密规则。 

如何评估一个解密规则的 质董效 果呢？假设有人给你一串文本，并且告诉你这是经过一 
种替换加密算法加密的。例如，如果凯撒大帝给了你一张写若 “wfoj wjej wjdj ” 的纸 
条，经过凯撒加密算法解密，你会发现这就是那句名 言的 ： “veni vidi vici ” 

译注 2: 我来。我见。我征服。 
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假设，你仅仅收到一段密文，并 a 可以确定这段密文对应的原文是标准的英语。你该如 
何来解码它？ 

我们解决这个问题的方法是这 样的： 如果一个解密规则能够将密文转换成标准的英语， 
那就是一个好的解密规则。输入一个解密规则，你就能够在密文上运行这个解密规则， 
然后观察解密出来的输出是不是正常的英文。例如，假设我们有两个备选的解密 规则： 

A 和 B ， 它们对应的结果分別 如下： 

• decrypt ( T , A ) = xgpk xkfk xkek 

• decrypt ( T , B ) = veni vidi vici 

看到这两个解密规则的输出结果，你会认为解密规则 B 显然要比解密规则 A 好。但是，为 
什么我们会做出这种直观决定呢？这是因为，我们发现解密规则 B 的输出更像是真正的 
英语，而解密规则 A 给出的结果则完全不知所云。我们可以通过一个程序来实现上面直 
观的思想，即利用一个词典数据库来帮助我们计算任何一串字符串是一个真正英文单词 
的槪串。由一串高概率单词组成的文本串更可能是真正的英文，而由一串低槪率单词组 
成的文本串更像是解密失败的产物。唯一的困难在于我们如何处理哪些不存在的单词。 
因为它们的概率是0,而程序在计算一段文本的概率时又需要将它所有单词的槪率连乘 
起来，所以必须用一个非常小的数来替代0,比如，机器所能表示的最小浮点数，可以 
称为 epsilon 。 一旦我们处理了这个边界情况，就可以使用词典数据库给两个解密串的解 
密质量进行 打分： 首先找到两个解密串中每个单间的概率，再把它们连乘起来得到整个 
解密串的槪率，根据整个解密串的槪率的高低来衡量两种解密规则的优劣。 

通过词典数据库计算得到的解密串的槪率，就是我们评估解密规则的误差函数。现在我 
们有了误差函数，我们的密码破译问题就完全变成一个优化问题了，只需要找到那个槪 
率最髙的解密串对应的解密规则就行了。 

遗憾的是，找到槪率最髙的解密规则这样的问题并不是 optim 函数所能解决的。解密规则 
并不能图形化，也没有连续性。而没有连续性， optim 函数就不知道它该往哪个方向去找 
更好的解密规则。因此，为了解决解密问题，我们需要一个全新的算法一也就是在本 
章前面提过的 Metropolis 方法。 Metropolis 算法的确适用于我们的问题，不过对干一般长 
度的加密串而言，它的运行速度非常慢& 3 。 

Metropolis 方法的基本思想是这 样的： 首先从一个随机的解密规则开始，然后通过多次 
循环优化它，直到最后它就有可能成为一个正确的解密规则。尽管这听上去有点像变魔 
术，但在实际应用它的表现不错，你可以自己做个试验来证实一下。而且，一旦我们拿 

注3:和其他语言例如 Perl 相比， R 语言本身文本处理的速度就很慢，这无疑是雪上加霜。 
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到一个可能是正确的解密规则之后，就可以*于语义连贯性和语法来判断是否正确地解 
密了密文。 

为了得到一条好的解密规则，首先从一条随机的解密规则开始，然后不断循环地改进解 
密规则，比如循环50 000次。 W 为每一次改进规则我们都倾向干朝着更好的方向改变， 
所以一遍一遍不断地重复这个过程，最终有可能得到一条效果还不错的解密规则，不过 
它不能保证循环50 000次就能得到我们想要的解密规则，也许需要50 000 000次。这就 
是为什么这个算法并不能应用 f 真实的密码破译 系统： 你不能保证算法在一定时间内给 
出一个结果，而在你忐忑不安地等待的时候，其至都不知道算法是否在向正确的方向努 
力。这个案例研究是一个简单的示例，只是为了让你明白，如果有些复杂的问题使用某 
些算法无法解决的时候，可以尝试使用优化算法。 

接下来具体阐述如 H 通过一个现有的解密规则来得到一个新的解密规则。我们通过一次 
只随机地改变当前规则中一处的方法来实现。也就是说，我们只改变解密规则中一个字 
母的对应关系。比如 “ a ” 当前对应的是 “ b ” ， 我们修改当前的规则，把 “ a ” 对应到 
“ q ” 。而因为替换密码的本质，这其实需要改变当前规则中的另外一个对应到 “ q ” 的 
字母规则，比如，也许当前规则下 “ c ” 对应的是 “ q ” 。为了保证我们得到的是一个合 
法的解密规则，我们必须把 “ c ” 对应到 “ b ” 。 所以，我们通过现有解密规则来生成新 
解密规则的算法 fi 终归结为交换两个字母的现有规则，其中一个字母是随机选的，而另 
一个字母是因为替换密码本身性质而决定的。 

如果我们想简中.一点，只有当新解密规则得到的解密串的概串变高的时候，才接受新的 

解密规则-称为贪心优化 (greedy optimization ) 。 遗憾的是，在这个例子中，贪心优 

化会 U ： 我们陷入坏的解密规则里面，因此通常使用下面的方法来决定使用原解密规则 A 
还足新解密规则 B : 

I . 如果解密规则 B 解密出的解密串的槪率大于解密规则 A 对应的解密串，那么我们用 B 
代替 A » 


2. 如果解密规则 B 解密出的解密串的槪率小干解密规则 A 对应的解密串，我们仍然 
有可能用 B 代替 A , 不过并不是每次都这么替换。具体地说，如果解密规则 B 对 
应的解密串的槪率是 probability ( T , B )， 而解密规则 A 对应的解密串的槪率是 
probability ( T , A )， 则以 probability ( T , B )/ probability ( T , A ) 的槪率从解密规则 
A 替换到解密规则 B 。 


注意： 如采这个比值看 t 去有点莫名其妙，没关系。这里真正重要的并不是这个具体的比值，而 
是“我们还是有一定槪率来接受 B ” 这个事实。这是我们不会陷入贪心优化的陷阱的关键原 

W 。 
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在幵始使用 Metropolis 方法处理不 M 的解密规则之前，我们需要前面提到过的处理解密 
规则的工具，实现它们的代码如下 所示： 

generate.random.cipher <- function() 

{ 

cipher <- list() 


inputs <- english.letters 

outputs <- english.letters[sample(l:length(english.letters), 
length(english.letters))] 

for (index in 1 : length(english.letters)) 

{ 

cipher[[inputs[index]]] <- outputs[index] 

} 

return(cipher) 

} 

modify.cipher <- function(cipher, input, output) 

{ 

new.cipher <- cipher 

new.cipher[[input]] <- output 

old.output <- cipher[[input]] 

collateral.input <- names(which(sapply(names(cipher), 

function (key) {cipher[[key]]}) == output)) 
new.cipher[[collateral.input]] <- old.output 
return(new.cipher) 

} 

propose.modified.cipher <- function(cipher) 

{ 

input <- sample(names(cipher), 1) 

output <- sample(english.letters, 1) 

return(modify.cipher(cipher, input, output)) 

} 

将这个生成新规则的工具和规则交换的工具结合使用，就可以弱化优化算法的贪心 
程度，从而避免浪费太多时间在明显不好的规则上，这些规则的槪率比现有 规则豇 
小。为了以算法的方式宋实现弱化版的贪心优化算法，我们计算 probability ( T ， B ) / 
probability ( T ， A )， 再把它句一个0〜1的随机数进行比较。如果随机数比 probability 
( T , B ) / probability ( T , A ) 大，那么我们就更换 3 前的规则，否则就保持当前的规则不 
变。 

为了计算一直不停提及的槪率，我们已经创建 f 一个词典数据库，它包含 f/ws/VMarW 
山下每一个单词在维基百科上的出现次数，你可以通过下面的方式将它加载到 R 
里面： 
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load('datd/lexicaldatabase.Rdatd') 

你可以査询儿个简单的单词来看看它们在维基百科上出现的频率（见表 7-2) : 

lexical.database[['a']] 
lexical.databasef['the']] 
lexical.database[['he']] 
lexical.database[['she']] 
lexical.database[['data']] 

表 7-2: 词典数据库 


单词 

概率 

a 

0.01617576 

the 

0.05278924 

he 

0.003205034 

she 

0.0007412179 

data 

0.0002168354 


准备好 r 词典数据库，我们需要一些计算文本概率的函数。首先，写一个从数据库读取 
槪率的函数，这会让我们更容易处理那些槪韦为最小浮点数的“伪单词”。在 R 语言里 
最小的浮点数是 . Machine $ double . eps 。 


one.gram.probability <- function(one.gram, lexical.database = list()) 

{ 

lexical.probability <- lexical.database[[one.gram]] 

if (is.null(lexical.probability) || is.na(lexical.probability)) 

{ 

return(.MachineSdouble.eps) 

} 

else 

{ 

return(lexical.probability) 


现在我们 有了一 个可以计算单个单词槪率的函数，还需要一个函数来计算一段文本的概 
韦，首先将一串文本拆分成一组单词，然后分别计算这些单词的槪率，再把它们的槪率 
连 乘起来 就得到了一串文本的槪率。遗憾的是，使用原始槪率连乘的结果非常不稳定， 
因为连乘的结果非常接近0,有可能超出计算机所能表示的精度范围。因此，实际上计 
算的是对文本串的槪率取对数之后的值，也就是把每个单词的概率取对数再累积求和之 
后的结果。这个结果就稳定多了。 

log.probability.of.text <- function(text, cipher, lexical.database = list()) 
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log.probability <- 0.0 
for (string in text) 


decrypted.string <- apply.cipher.to.string(string, cipher) 
log.probability <- log.probability + 

log(one.gram.probability(decrypted.string, lexical.database)) 

} 

return(log.probability) 

} 

现在，所需要的黾个模块都准备好了，我们可以写一个 Metropolis 方法的单步方 法了： 

metropolis.step <• function(text, cipher, lexical.database = list()) 

{ 

proposed, cipher <- propose, modified, cipher (cipher) 

lpi <- log.probability.of.text(text, cipher, lexical.database) 

lp2 <- log.probability.of.text(text, proposed.cipher, lexical.database) 

if (lp2 > lpl) 

{ 

return(proposed.cipher) 

} 

else 

{ 

a <• exp(lp2 - lpl) 
x <- runif(l) 
if (x < a) 

{ 

return(proposed.cipher) 

} 

else 

{ 

return ( cipher ) 

} 

} 

} 

现在，整个优化算法的每一个步都准备好了，让我们把它们组合起来，来看看它是如何 
工作的吧。首先把明文保存在一个 R 语言的字符串向量 里面： 

decrypted.text <- c('here', 'is', •some., 'sample', .text.) 

然后对这一串明文进行凯撒 加密： 

encrypted.text <- apply.cipher.to.text(decrypted.text, caesar.cipher) 

我们首先创建-个随机的解密规则，然后运行50 000次 Metropolis 方法，把结果保存在一 
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个叫做 results 的数据框里面。针对每一 次计兑 过程，都把解密串的对数槪率值、当前的 
解密结果以及当前解密是否正确的变1;保存 T 来。 


警告： 当然，在现实屮，如采*试破 译-串 密文， 是不可 能知道破译足否成功的，这仅仅足-个 
出丁•演示日的的示例。 

set.seed(l) 

cipher <- generate.random.cipher() 
results <- data.frame() 
number.of.iterations <- 50000 


for (iteration in l:number.of.iterations) 


log.probability <- log.probability.of.text(encrypted.text, cipher, lexical.database) 
current.decrypted.text <- paste(apply.cipher.to.text(encrypted.text, cipher), 

collapse = • ’） 

correct.text <- as.numeric(current.decrypted.text == paste(decrypted.text, 

collapse = ’ ’）） 


results <- rbind(results, 

data.frame(Iteration = iteration, 

LogProbability * log.probability, 
CurrentDecryptedText = current.decrypted.text, 
CorrectText = correct.text)) 

cipher <- metropolis.step(encrypted.text, cipher, lexical.database) 


write.table(results, file = 'data/results.csv', row.names - FALSE, sep = '\t') 


山千执 行这一 段代码需要花不少的时间，闪此，在你等待程序 运行的 时候，可以来看一 
下表 7-3 中展示的结果的一部分 内容： 

表 7-3: Metropolis 方法的执行过程 


循环次数 

对数概率 

当前的解密结果 

1 

-180.218266945586 

Isps bk kfvs kjvhys zsrz 

5000 

-67.6077693543898 

gene is same sfmpwe text 

10000 

-67.6077693543898 

gene is same spmzoe text 

15000 

-66.7799669880591 

gene is some scmhbe text 

20000 

-70.8114316132189 

dene as some scmire text 

25000 

-39.8590155606438 

gene as some simple text 

30000 

-39.8590155606438 

gene as some simple text 

35000 

-39.8590155606438 

gene as some simple text 

40000 

-35.784429416419 

were as some simple text 

45000 

-37.0128944882928 

were is some sample text 

50000 

-35.784429416419 

1 1 

were as some simple text 
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正如你看到的那样，我们在 4 5 000次循环以后就已经非常接近真正的明文了，不过在循 
环结束的时候我们并没有找到正确的明义。如果仔细看一下结果，你就会发现，其实在 
第 4 5 609次循环的时候，我们得到了正确的解密规则了，不过我们接下来把它换掉了。 
这正是这个目标函数的 问题：它度鼇 的是每一个承词是否是真正的英文单词，而不管它 
们连接起来是否符合英文语法成是否通顺。如果改变解密规则，能让你得到槪率电高的 
单词，那么它就会改变解密规则，即使这会使解密串犯语法上的错误甚至完全不知所 
云。为了解决这个问题，你需要利用史多的英语知 I 只，比如说连续两个单词出现在一起 
的槪率。冃前，它强调了使用这种特殊的目标函数所带来的优化问题的复杂 性： 有时 
候，优化算法得到的最优结果并不真正是你想要的结果。而且，当你使用优化 W 法宋解 
决 N 题的时候，并不能完全离开人工监督。 

我们的 U 标函数并没有足够的英语知 I 只，这是一个问题，但是，事实上还有比这更复杂 
的 问题。 首先， Metropolis 方法是一个随机优化算法，幸运的是，我们选的随机种子足 
1，如果我们选了一个不好的随机种子，可能需要执行数万亿次循环才能得到正确的解 
密规则。为了证实这一点，可以尝试选择不冏的随机种子，再对每个种子循环1000次并 
分析其结果。 

其次， Metropolis 方法总是乐干放宑好的解密规则，正因为如此，它才是一个非贪心的 
算法，然而也正因为如此，如果观察足够 fe 的时间，你就会发现它放弃了你真正想耍的 
解密规则！在图 7-6 中，我们把每次循环后的对数概率值都圃了出来，从图中你可以看 
到，这曲线是多么的崎岖。 

苻很多流行的；/法来解决这种随机扰动问题。其中一个方法是随笤循环次数越来越多， 
它越来越不可能接受没有变好的规则一也就是说它变得越来越贪心。这叫做模拟退火 
方法，这个方法很有用，你也可以尝试通过改变接受新解密规则的函数中那部分代码来 
尝 W ： -下& 4 。 

另一种方法接受这种随机性，它给出的优化结采并不是一个唯一结果，而是一个结果的 
槪串分布。在我们例子中，这个方法行不通，不过对 r - 那呰优化的结采足一个数值的问 
题，能够生成多个可能结果足很有用的。 

结朿本欹之前，我们希望你已经大致了解了优化算法足怎么实现的，并且你已经"〖以用 
它来解决一些复杂的机器学习 N 题了。前面提到的一些概念，在接下来的章节中，我们 
还会提及，特别是当讨论到推荐系统的时候。 

注 4: 事 实上，通过设置一个参数，可以让 optim 函軚使用橫拟退火算法来代替标准算法。不 

过，在我们的例子中，并不能使用模拟退火版本的 optima 数，因为它只能处理数值参 
敫，而不能处理用来表示解密规则的这种数据结构 9 
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无监督学习 

到目前为止，我们围绕数据所做的一切都是基于预测的 任务： 我们尝试对电子邮件或者 
网 Ki 方问最进行分类，在这些任务中，我们拥有训练用的样本数据集，其中的数据都已 
知正确的答案。正如本书曾提到的那样，当我们拥有已知正确答案的训练样本数据时， 
从中进行学习的过程称为有监督 学习： 发掘数据中的结构，并使用一个信号最进行衡 
量，在探索真实的模式这项工作中，我们是否做得很好。 

但是，在没有任何已知答案指导的情况下，我们也经常想要发掘数据中的结构，这称为 
无监督学习。例如，我们也许想要进行数据降维，即把一个有很多列的表压缩成一个只 
有较少列的表。如果你需要处理很多的列，那么采取降维方法将会使得数据集更加容易 
理解。当你 使用一 列来代替多个列的时候，尽管明显损失了信息，但是在数据的可理解 
性上，通常获得了有价值的回报，在分析一个新的数据集时更是如此。 

处理股市数据时，降维的优势就很大。例如，表 8-1 展示了真实的历史数据，这份数据是 
关于2010年01月02日〜2011年05月25日期间25只股票的价格。 

表 8-1: 历史股票价格 


曰期 

ADC 

AFL 

• • • 

UTR 

1 ..------- 

2002-01 -02 

17.7 

23.78 

•參 • 

39.34 

2002-01-03 

16.14 

23.52 


39.49 

... 

••• 

鲁 • • 

• • • 

砉 ♦售 

2011-05-25 

22.76 

49.3 

• • • 

29.4 
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我们只列出了 3 列，实际上有 25 列，列太多了，不是很好处理。我们想嬰把 25 列的信息 
综合起来，得到一列，这一列可以告诉我们每天股市行情的好坏，这一列称为股市指数 
(index of the market) 。 那么，我们怎么才能构造一个股市指数呢？ 

主成分分析 

针对上面的例子，最简单的方法就是称为主成分分析 (Principal Components Analysis, 
PCA) 的方法。 PCA 的主要思 路是： 创建一个 25 列的新数据集，根据每一列包含原始数 
据信息的多少，对新数据集中的列排序。排在第一的新列称为第-主成分（简称为主成 
分），它总是包含整个数据集的绝大部分结构。当我们数据集中的每一列都是强相关的 
时候， PCA 特別有效。在这种情况下，你可以把原来相关的列替换为中.独一列，这一列 
完全能反映原来列之间的潜在相关模式。 

接下来我们观察数据中的列之间有多大的相关性，从而看看 PCA 是否适用于这里。为 
此，首先需要把原始数据加载进 R 语言： 

prices <- read.csv('data/stockprices.csv') 
prices[l,] 

# Date Stock Close 

#1 2011-05-25 DTE 51.12 

原始数据集并不是我们喜欢使用的格式，因此需要进行预处理。第一步，把数据集中 
的时间戳转换为正确编码的日期变董。这要用到 lubridate 程序包，这个程序包可以从 
CRAN 获得。这个程序包中的 ymd 函数非常棒，它能把“年-月-口”这种格式的字符串转 
换成日期对象。 

library(•lubridate') 

prices <- transform(prices, Date = ymd(Date)) 

一旦完成了这一步，我们就能使用 reshape 闲数库中的 cast 函数，来创途一个和本章前面 
看到的表格相似的数据矩阵。在这个表中，每一行代表每一天，而每一列代表了不同的 
股票，接下来像下面这样进行 操作： 

library('reshape') 

date.stock.matrix <- cast(prices. Date ~ Stock, value = 'Close') 

在使用 cast 函数时，在波浪符号左边指定用数据源中哪些列作为输出矩阵的行，在波浪 
符号右边指定哪些列作为输出矩阵中的列。用 value 来指明输出矩阵中毎一个元素的取 
值。 
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分析 r 这个生成结果——巨大的 h 期•股票矩阵之后，我们注意到缺失 r 一些元桌。闪此 
回到敁初的 prices 数据集，刪除那些缺失元素的数据，然后再运行 cast 函数： 

prices <- subset(prices, Date != ymd('2002-02-01')) 
prices <- subset(prices. Stock != 'DDR') 

date.stock.matrix <- cast(prices. Date ~ Stock, value - ’Close.) 

刪除了缺失元紊的数据之后，我们新生成想要的矩阵。做完这步之后，可以使川 cor 
函数来找到这个矩阵中所有数字列之间的相关性。然后把相关性矩阵转换成一个数值向 
景，并 ft 画一个相关性密度图，以此来获得两个直观 认识： a ) 相关性的均值， b ) 低相 
关性出现的颊率。 

cor.matrix <- cor(date.stock.matrix[ ,2 :ncol(date.stock.matrix)]) 

correlations <- as.numeric(cor.matrix) 

ggplot(data.frame(Correlation = correlations), 
aes(x = Correlation, fill = l)) + 
geom_density() + 
opts(legend.position = 'none') 

我们幽出的密度图如图 8-1 所示。正如我们可以看到的那样，大部分相关性是正数， W 此 
PCA 适用干这份数据集。 

我们 t _ L 经确信了可以使用 PCA ， 怎么样才能在 R 语言中使用 PCA 呢？这乂是一个 
特別棺长的地方：整个 PCA 可以通过一行代码来完成。我们使用 princomp 函数来运行 
PCA ： 


pea <- princomp(date.stock.matrix[,2:ncol(date.stock.matrix)]) 

如果只在 R 语言命令行中输人 pea , 我们将看到一个关于主成分的简单汇总 信息: 


Call: 

princomp(x = date.stock.matrix[ , 2:ncol(date.stock.matrix)]) 


Standard deviations: 

Comp.1 Comp.2 Comp.3 
29.1001249 20.4403404 12.6726924 


Comp.8 Comp.9 Comp.10 
5.1300931 4.7786752 4.2575099 


Comp.15 Comp.16 Comp.17 
1.9469475 1.8706240 1.6984043 


Comp.4 Comp.5 
11.4636450 8.4963820 
Comp.11 Comp.12 
3.3050931 2.6197715 
Comp.18 Comp.19 
1.6344116 1.2327471 


Comp.6 Comp.7 
8.1969345 5.5438308 
Comp.13 Comp.14 
2.4986181 2.1746125 
Comp.20 Comp.21 
1.1280913 0.9877634 


Comp.22 Comp.23 Comp.24 
0.8583681 0.7390626 0.4347983 

24 variables and 2366 observations. 


在这个汇总屮，标准差 (standard deviation ) 告诉我们每一个主成分的贡献率（成分方 
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差占总方差的比例）是多少。第一主成分称为 Comp . 1，贡献率是29%，而第二主成分的 
贡献率是20%。在末尾处，最后一个成分 Comp . 24带来的贡献率小于1%。这意味着仅仅 
采用第一主成分就能很好地对数据进行学习。 



图 8-1: 股票价格数据中所有数值列之间的相关性 


我们通过观察第一主成分的载荷量 （ loading ) 来更加细致地研究它。载荷值告诉我们， 
它给每一个主成分多大的权甫。我们通过提取 pea 中 princomp 对象的 loadings 元素来获得 
这些信息。提取 loadings 后，可以获得一个大矩阵，它告诉我们源数据的25列中每一列 
有多少信息包含在每个主成分中。我们只对第一主成分感兴趣，所以只把 pea 载荷的第 
一列提取出来： 

principal.component <- pca$loadings[,l] 
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完成这些之后，我们可以分析载荷的密度图，直观地了解第一主成分是如何形成的。 


loadings <- as.numeric(principal.component) 

ggplot(data.frame(Loading = loadings), 

aes(x = Loading, fill = l)) + 
geom_density() + 
opts(legend.position = 'none') 

结果如图 8-2 所示。这个结果有点让人 M 惑，因为载荷有一个相当不错的分布，但是儿乎 
全都是负数。一会儿，我们将看到这会导致什么问题。它实际上是个很小的麻烦，我们 
用一行代码就能解决。 



图 8-2: 主成分载荷 
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到 ir 前为止我们 d 经获得了主成分，接下来以把数据总结成一列 r 。 可以使用 predict 
函数完成这个 目标： 


market.index <- predict(pca)[,l] 

如何氺能知道这 些预测 值的效采呢？幸运的足，对这个实例我们可以很容易地判断结 
果好坏， W 为可以把结果 和著名 的市场指数作比较。在本章中，我们使用道琼斯指数 
(Dow Jones Index ) ,这里用 DJI 来代表它。 

像下餌这样把 mi 加载进 r : 

dji.prices <- read.csv('data/DDI.csv') 

dji.prices <- transform(dji.prices. Date = ymd(Date)) 

W 为使用幣个 DJI 运行的 时间比 我们预想的要 K ： 很多，所以孟要取一个它的子集， W 仅 
获得我们感兴趣的那些日期。 

dji.prices <- subset(dji.prices, Date > ymd('2001-12-31')) 
dji.prices <- subset(dji.prices. Date !* ymd('2002-02-01')) 

然后，提取 DJI 屮我们感兴趣的部分，也就足每日收盘价格和我们 ill 汆过的那些 H 期。 
因为它们的顺序和我们现在的数据集相反，用 rev 函数反转它们 即可： 

dji <- with(dji.prices, rev(Close)) 
dates <- with(dji.prices, rev(Date)) 

现在，我们可以绘制一些简单的 W ， 将使用 PCA 生成的市场指数和 DJI + ll 比较： 

comparison <- data.frame(Date = dates, Marketlndex = market.index, D]I = dji) 

ggplot(comparison, aes(x = Marketlndex, y = DDI)) + 
geom_point() + 

geom_smooth(method = •lnT, se = FALSE) 

从阁8-3吋以#出，那些之前看上去烦人的负载荷，真的成了麻烦的 源头： 我们的指数和 
DJ 1 负相关。 

m 足，我们可以很容易地解决这个麻烦。只需要对指数乘以-1，即可生成一个和 dji 正相 
关的指数。 

comparison <- transform(comparison, Marketlndex = -1 * Marketlndex) 

现在可以再一次尝试进行比 较了： 

ggplot(comparison, aes(x = Marketlndex, y = D3I)) + 
geom_point() + 

geomsmooth(method * 'lm', se = FALSE) 
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如图 8-4 所示，我们已经修正了指数的方向，并且它看上去和 DJ 〖 真的很匹配。剩下的最 
后一汁•饵情，就足获得我们的指数随苕时间推移与 DJI 的趋势保持一致的程度。 



图 8-3: PCA 指数与道琼斯指数的初步比较 

" T 以很容易进行比较。首先，使用 melt 函数获得一个数据框 (data frame ) ，它》了以很咨 
易地-次性对两个指数进行可视化。然后，我们对飪个指数[涵出一条以 U 期为) (轴， 以价 
格为 y 轴的线。 


alt.comparison <- melt(comparison, id.vars = ’Date') 
names(alt.comparison) <- c('Date', 'Index', 'Price') 


ggplot(alt.comparison, aes(x 
geom_point() + 
geom_line() 


Date, 


Price, group = Index, color = Index)) + 



PCA ： 构建股票市场指数 


209 




这一次结果并不是很好，因为 DJI 都是很髙的值，而我们的指数都是很小的值，但是可 
以使用 scale 函数解决这个问题，它把两个指数放到同一刻度下。 


0 

市场指数 








图 8-4: 改变刻度后的 PCA 指数与道琼斯指数的比较 

comparison <- transform(comparisonMarketIndex = -scale(MarketIndex)) 
comparison <- transform(comparisonDDI = scale(DH)) 

alt.comparison <- melt(comparison, id.vars = 'Date') 
names(alt.comparison) <- c('Date', 1 Index', 'Price') 

p <- ggplot(alt.comparison, aes(x = Date, y = Price, group = Index, color = Index)) + 
geom_point() + 
geom_line() 

print(p) 

然后重新画出曲线，并且检査结果，如阉 8-5 所示。在图 8-5 中，我们完全使用 PCA ， 并 
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且没有使用任何股市专业知识创建的市场指数，看上去与 Dn 的趋势保持得相当好。总 
之，原以为需要对股市状况的表示方法有深入思考才能得到这样的图，然而用 PCA 真的 
能够产生一幅股票价格的趋势图。我们觉得这相当令人惊叹。 



图 8-5: PCA 指数与道琼斯指数随时间变化的比较 

从这个例 P 可以看出， PCA 是一个强大的工具，可以用于简化数据，甚至当你没有尝试 
预测任何事情时，就在发掘数据中的结构上事半功倍了。如果你对这个主题感兴趣， 
建议学习独立成分分析 (Independent Component Analysis ， ICA ) ，它是 PCA 的一个变 
形，在某些 PCA 不能使用的情况下，可以很好地发挥作用。 
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第 9 章 

mds 7 可视化地研究 

参议员相似性 


基于相似性聚类 

很多时候，我们想知道一群人中的一个成 R 与其他 成员之 N 有多么相似。例如，假设我 
们足-•家品牌营销公司，刚刚完成 r 一份关于有潜力新品牌的研究调査问卷。在这份调 
奔问卷中，我们向一群人展示了新品牌的几个特征，并且要求他们对这个新品牌的鉍个 
特征按五分制打分。我们冋时也收集了人群的社会经济特征， 例如： 年龄、性別、 
种族、他们住址的邮政编码以及大槪的年收入。 

通过这份调査问卷，我们想槁清楚品牌如何吸引不同社会经济特征的人群。敁歌要的 
是，我们想要知道这个品牌是否有很大的吸引力。换个角度想这个问题，我们想看看那 
些敁喜欢这个品牌特征的人们，是否有多种多样的社会经济特征。实现这一点的一种方 
法就是对问卷受 i 方者的聚类结果进行可视化。然后就可以使用各种各样的视觉线索 ， m 
別出不同社会经济特征的成员。也就是说，我们想要看到大最不同性別、不同种族以及 
不间收人的人聚类到一起。 

同样，我们想要使用这些知识来看看，相近的人群足如何基干品牌吸引力而聚类到一起 
的。我们也想看看一个聚类中有多少人，或者它与其他聚类的距离有多远。这也能告诉 
我们这个品牌的什么特征吸引 r 不同社会经济特征的人群。在提出这些问题时，我们使 
用这样的名词，如“近”和“远”，它们本身都是说明距离槪念的词。因此，为了使聚 
类结采之间的距离更形象化，我们需要引人一些个体聚集 的空间 槪念。 
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本葶主 旨是： 对不同的观测记录，如何理解用距离的槪念来阐明它们之间的相似性和相 
异性。这需要针对分析数据定义一些不同类型的距离矩阵。例如，在假设的品牌市场情 
形中，我们可利用调査规模的顺序属性以一种非常直接的方式发现不同受访者之间的距 
离: 简单计算绝对差异。 

可足，仅仅计算这些距离还不够。在本章中，我们将要介绍一种称为多维定标 
(multidimensional scaling, MDS) 的技术，该技术的目的是基于观察值之间的距离度 
景进行聚类。通过 MDS ， 我们可以只使用所有点之间的一个距离度 键， 就能将数据进行 
可视化。我们首先用一个用户对产品评分的演示实例来介绍 MDS 的基本原理，这个例子 
采用的是模拟数据。然后再使用真实的数据，这份真实数据是关于美国参议员记名投票 
的，我们以此 展示： 如何基于参议院成员的投票对他们进行聚类分析。 

距离度量与多维定标简介 

在开始正式介绍之前，假设已有-份非常简单的数据，这份数据中有4个用户，以及他 
们对6个产品的评分。毎个用户按照要求对毎个产品给出一个“拇指向上”或者“拇指 
向下”的评价，如果他们对某个产品没有任何意见，也可以忽略这个产品。有很多 i 平价 
系统采用这种方式，包括 Pandora 和 YouTube 的评价系统。我们想要使用这个 I 平分数椐度 
M 毎个用户和其他用户之间有多大的相似性。 

在这个简单的例子中，我们将会建立一个 4 x 6 的矩阵，在这个矩阵中行表示用户，列表 
示产品。我们将使用模拟评分填满这个矩阵，模拟评分随机地在“拇指向上” （1) 、 
“拇指向下” （- 1) 以及忽略 （0) 中间选取一个作为每个“用户/产品对”的评分。为 
了完成这个任务，我们将要使用 sample 函数，这个函数随机地从一个向量“1, 0, -1) 
中取值6次，采用放回式取值因为要用 R 的随机数产生器模拟数据，所以有一件事 
很重要，那就是你要设置和我们一样的随机数种子，这样才能 i 上你的程序和我们的例子 
输出一样的结果。我们调用 set . seed () 函数设置种子，这里 设置为 851982。 

set,seed(851982) 

ex.matrix <- matrix(sample(c(-l,0,l), 24, replace=TRUE), nrow=4, ncol=6) 
row.names(ex.matrix) <- c(’A',■B',’C.,'D ’） 
colnames(ex.matrix) <- c( ， Pl_,.P2.,.P3_,.P4,,_P5.,_P6.) 

这段代码将建 立 一个 4 x 6 的矩阵，矩阵的每个元紊对应用户（行）对产品（列）做出的 
I 平分。我们使用 row . names 和 col names 这两个函数仅仅是为了使这个例子能描述得更加 
清晰： 用户是 A ~ D ， 而产品是1〜6。当我们观察这个矩阵的时候，能够确切地看到示 
例数据集是什么样子的。例如，用户 A 给产品2和产品4 “拇指向下”的评价，而且没有 


译 汰丨： 放回式取值是指取过的值可以再次舣。 
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评价其他任何产品。从另一行看，用户 B 给了产品1 “拇指向下”的评价，但是他给产品 
3、4和5的评价是“拇指向上”。现在，我们需要使用这些差异来生成一个所有用户之 
间的距离度量。 

ex.matrix 
Pi P2 P3 P4 P5 P6 
A 0-1 0-100 

B -1 0 1 1 1 0 
C 0 0 0 1 -1 1 
D 1 0 1 -1 0 0 

使用这份数据生成一个距离度址的第一步垃，摘要每个产品的用户评分，因为通过评 
分可以使用户和其他所有用户关联，也就是说，不像现在这样仅仅将用户和每个产品 
关联起来。思考这个问题的另一个方式就是，我们需要把这个 NX M 的矩阵，转化为- • 
个 NX N 的矩阵，在新矩阵中，每个元素都代表了用户之间基子对产品评分所产生的关 
联。完成这一步的一个方法是，将现有的矩阵和它自己的转置相乘。这个乘法操作的效 
果是计算原来矩阵中每两行之间的相关性。 

矩阵转置和矩阵乘法，应该是你在大学离散数学或者线性代数课程的前几周学过的知 
识。也 il * •你筲经痛苦地手工进行那些转置计算，这得看你老师的性格 f 。 幸运的是，现 
在 R 语言非常乐意帮你把转置工作完成了，这让你很开心吧？ 


注意： 本节介绍 f 矩阵操作以及使用它们构违 If 分数据距离度 i: 的人门内容。如果你已经熟悉 
了，可以跳过这一节。 


矩阵转置是指把一个矩阵反转，因此原来的行变成了列，原来的列成了行。从视觉上来 
看，转置把一个矩阵顺时针旋转90°，然后再把它 垂直翻 过来。例如，在前面的代码块 
中，我们可以看到“用户-评分” 矩阵： ex . matrix , 不过，在下面的代码块中，我们使 
用 t 函数转置它。现在，我们就有了一个“评分-用户” 矩阵： 

t(ex.matrix) 

A B C D 
PI 0 -1 0 1 

P2 -1 0 0 0 

P3 0 1 0 1 

P4 -1 1 1 -1 

P5 0 1 -1 0 

P6 0 0 1 0 

虽然矩阵的乘法更复杂一些，但是这里也只用到了基本算术运算。为 r 把两个矩阵相 
乘，我们循环遍历第一个矩阵的行和第二个矩阵的列。对于每一个“行-列”对，把毎 
个行列元素对相乘，并且把相乘结果相加。在后面我们将看一个简单的例子，但是在做 
矩阵乘法时，要牢记一些重要的事情。首先，因为要把第一个矩阵的行元素和第二个矩 
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阵的 列元素 相乘，所以两个矩阵之间交叉的维度应该一致。在我们的例子中，不能简单 
地把矩阵 ex . matrix 与一个 2 x 2 矩阵 相乘； 如果你试试这么做，就会看到算术运兑无法 
正常进行。据此推断，矩阵乘法的结果，将会总是和第一个矩阵有相同个数的行，和第 
二个矩阵有相同个数的列。 

-个 / i 接推论 足： 在矩阵乘法中，顺序是有关系的。在本例中，我们希望得到一个能够 
摘要川户之间差异的矩阵，所以将“用户-评分”矩阵和它自己的“评分-用户”转1 
矩阵扣乘，得到一个乘枳。如采以完全相反的方式来做，例如，将“评分-用户”矩阵 
和它 flii 的转 S 矩阵相朶，将得到反映 If 分之间差异的矩阵。在其他情况 F ， 这样做也 
许是我们感兴趣的，但是现在它没有什么用处。 

在图 9-1 中，我们演示了如何进行矩阵乘法。左上角是 ex . matrix ， 右上角是它的转置矩 
阵。饤了这两个矩阵之后，我们把它们按照从左到右的顺序相乘。作为一个矩阵乘法的 
例子，我们突出显示了 ex . matrix 的行 A 及其转置矩阵的列 B 。 在紧 挨着这 两个矩阵的下 
面，详细展示了矩阵乘法的算术运算。算术运算非常简单，取第一个矩阵一行中的元 
素，然后将其和第二个矩阵列中对应的元素相乘。然后把所有乘积相加。你也看到了， 
在“用户-用户”结果矩阵中元素 [ A , B ] 是 -1, 也就是“行-列”相乘后求和的结果。 

ex.mult <- ex.matrix %*% t(ex.matrix) 
ex.mult 
A B C D 


在阁 9- i 中我们也介绍 r 一些 Rig 言的符号，这些符号在前面生成矩阵乘积的代码块中反 
复出现。在 Rig 言中，可以使闹％*%操作符进行矩阵乘法。对新矩阵的解释作常直观 。 W 
为我们使用 H 、 - 1和0的编码机制，所以非对角线元素的值反 映了： 在 Li 知两个用户 
都进行 r 评分的那些产品的情况下，用 p 对产品的 if 分大体 t 是一致的（正值），还是 
不一致的（负值），就我们的例子来说，就足那呰非零元 本。 非对角线的元桌的正值越 
大，则 两个用 户的 if 分就越 •致； 同样，负值越小，则两个户的 If 分就越不一致。因 
为我们婊初的矩阵元素是随机的，所以不同用户之 W 只有很小的差异，干是没冇作对角 
线元桌的值蛙大于1或者小于-1的。对角线元紊的值只是反映了每个用户对多少个产品 
进行了评分。 
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ex.matrix 


t(ex.matrix) 



A ， B=(0*-l)+(-l*0)+(0*l)+(-l*l)+(0*l)+(0*0) 


ex.matrix %*% t(ex.matrix) 



图 9-1: 矩阵乘法举例 

现在，我们有了关干用户之间差异的摘要，这在-定程度上足有用的。例如，用户 A 和 
用户 D 都给了产品4反对票：可是，用户 D 喜欢产品1和产品3,而用户 A 根本没有对它们 
进行评价。因此，从它们都给出投票信息的那些产品的角度来看，我们可以说这两个用 
户是相似的，因此我们有一个谊为1的元素对应他们之 N 的关系。很遗憾，这个结果传 
达的信息是有限的，因为我们只能对用户的 ft •行评 分记录给出一些解释。但是我们想要 
的方法是可以把用户评分记录的差异泛化到吏丰富的表达程度。 

为此，我们将在多维空 N 中引人欧氏 Hi 离 （Euclidean distance ) 的槪念。在一维空 N 、 
二维空间或者三维空间中，欧氏距离足我们 ft 观上所感受到的距离的一个公式化描述。 
为了计算空间中两点之间的欧氏距离，我们测说它们之间敁短的直线距离。在本例中， 
我们想要*干 t . 面的矩阵乘积所定义的整体相似性和差谇性度量， 来汁算 所有用户之间 
的欧氏距离。 


为了实现这一点，我们将把每个用户的所有评分作为一个向量。为了比较用户 A 和用户 









B ， 可以把他们对应的向 傲相 减，然后对差进 行甲方 运算，将平方结果加到一起，最后 
对加和结果求平方根。这样就得到 r 用户 a 的所有评分和用户 b 的所有评分之间的欧氏距 
离。 

我们可以使用 R 语言中的基本闲数 sum 和 sqrt 来“手工”计算欧氏距离。在下面的代码块 
屮，我们展示了对用户 A 和用户 D 所做的这种计算，结果大槪是2.236。幸运的是，因为 
计算一个矩阵所有两行之 M 的距离足一种作常常见的操作，所以 R 语言有个某本函数叫 
做 dist ， 这个函数正足 用来做 这些计算的，而它会返回 •个 关丁-距离的矩阵，我们把这 
个矩降称作“距离矩阵” （distance matrix ) 。 dist 函数可以使用几种不同的距离 度董方 
法产生一个距离矩阵， m 足我们仍会坚抟使用欧氏距离，这也是该函数的默认方法。 

sqrt(sum((ex.mult[l,]-ex.mult[4,]) A 2)) 

[1] 2.236068 

ex.dist <- dist(ex.mult) 
ex.dist 


ABC 
B 6.244998 
C 5.477226 5.000000 
D 2.236068 6.782330 6.082763 

现在， ex . dist 变贵中保#了距离矩阵。£如你从代码块中看到的那样，这个矩阵实 K 
上只 是整个趴离矩阵的下三角部分。因为行 X 到行 Y 之间的距离与行 Y 到行 X 之 N 的距离 
足一样的，所以跑离矩阵-定是对称矩阵，于是像这样只显示距离矩阵的 F 三角部分很 
常见。显示 ifti 离矩阵的 h 三角足冗余的，一般不会这么做。但是你可以在调用 dist 函数 
的时候，设置参数 upper=TRUE 覆盖只显示下三角矩阵这个默认值。 

正如我们可以在 ex . dist 矩阵的下三角中的值所看到的，用户 A 和用户 D 是距离最近的， 
而用户 D 和用户 B 是距离最远的。现在，我们对基于用户对产品评分的用户之间相似性， 
釘了! li 加沾晰的感性认 m ， 小过，如采我们 " r 以获得关于这种差异的视觉认 m， 就史好 
To 这正是 MDS 可以发挥作用的地方，它可以基 f 我们刚刚计算出的距离生成一个用户 
空间布局。 

m 【) s 足一个统计技术集合，用 p " r 视化地描述距离集合中的相似性和差异性。对 t 经典 
的 MDS —一我们将会在本章中用到，它的整个处理过程包 括： 输入一个包含数据集中任 
盘两个数据点之间趴离的跗离纪阵，返冋一个唞标集合，这个集合可以近似反映毎对数 
倨点之 M 的趴离。之所以说足近似反映，是因为在二维空 M 中很可能不存在被一组距离 
分歼的点集。例如，迮二维空间中，小可能找到4个彼此间距离都是1的点。 （ m 注意， 

3个彼此之 N 距离都足1的点，足一个等边三角形的顶点。因此，不吋能有另外一个点到 
这个三角形的3个顶点的距离都是1。 ） 
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经典的 MDS 使用一个特別的距离矩阵近似方法，因此它也足另外一个川于机器学习的优 
化筧法的例+。当然，经典 MDS 背后的近似兗法，也可以用到三维空间或者4维空间， 
但是我们的目标足获得一个表达我们数据的方式，以便于7/便地进行可视化。 


注意： 对于本章中的所有实例，我们郎将使用 MDS 在二维空 N 屮刻_数据。这足 W 常 lAl 的 MDS 使 
用；/式，因为这样使 我们付 以非常简单地在一个平标图中将 数据吋 视化。但是，毫无争议 
的坫， MDS 也吋以在电伤维空间使用。例如，三维《〖视化吋能揭示出聚类结果中数据点仵 
第三个维度中 的+同 层次。 


经典的 MDS 例程是 R 语言基础函数 cmdscale 的一个组成部分， rfriR 这个函数只要求输入 
一个距离矩阵，例如 ex . dist 。 cmdscale 这个函数将默认地在：维空 N 中计算 MDS，ffi 
是你可以使用 k 这个参数改变这个设 S 。 因为我们只对在二维空间中刻画距离数据感兴 
趣，所以在下面的代码块屮使用了默认参数设置，汴 P 1. 使用 R 语言的基础 ffl 形把结果画 
出来。 

ex.mds <- cmdscale(ex.dist) 
plot(ex.mds, type='n') 
text(ex.mds, c(•A.,.B.,.C_,_D.)) 

从图 9-2 中我们可以看到，用户 A 和用户 D 确实在图的中间靠右位置被聚类到一起。可 
足，用户 B 和用户 C 根本就没有形成聚类。从我们的数据来看，确实可以看到用户 A 和用 
户 D 具有某种程度的相似〖 I 味，但是，我们需要获得史多数据以及（或者）用户，才能 
弄清楚为什么用户 B 和用户 C 被聚类到一起。需要注怠的是，尽管可以看到用户 A 和用户 
D 是如何聚类的，以及类似的用户 B 和用户 C 适如何没有被聚类的，何是关 Hll 何解释这 
些距离，我们不能给出任何实质性的说法。也就是说，我们知道用户 A 和用户 D 更加相 
似，因为它们在坐标平面1：更加接近，但是我们不能使用它们之间的鷇化距离来解释它 
们究竞有多么相似，或者解释用户 B 和用户 C 之间到成有多么不相似。 MDS 产生的具体 
距离数伉是由 MDS 算法制造出来的，根据它，不能给出多少实质性的解释。 

在下一节，我们将完成一个案例研究，它和刚刚使用的演示例 f 很相似，何足将使用来 
Q 美国参 i 义院的记名投票的舆实数据。这份数据比演示例了•的数据集大多了，而我们将 
使用它来展示美闻参议院成员在历届国会 h 分别是如何被聚戈 m 我们将使用参议院的 
记名投票记录来产生距离度量，然后将使用 MDS 在二维空间中将参议员聚类。 
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ex.mds[.1] 


图 9-2: 关于用户对产品模似评分数据的 MDS 图 

如何对美国参议员做聚类 

当前的国会 —— 第111届国会足当代历史中意识形态两极化最严重的一届。在白宮 
和参议院中，最保守的民主党都要比最开明的共和党还要开明。如果把国会的“中 
心”定义为两党重叠的部分，那么这个中心已经消失了。 

—— William A.Galston, 布鲁金斯学会 (2010) 

我们经常从 William A. Galston 那里听到与此类似的评论，他是在布鲁金斯学会 (The 
Brookings Institute) 从赘政府管理研究的卨级研究 W ，他声称美国国会的两极化处在历 
史最高点 [WA10 】。 原因当然不言自明。流行出版物经常描述这种印象，而 M •美国的主流 
媒体也经常夸大这些差异。如果把立法过程陷入泥潭当做这种两极化的副作用，那么可 
以 期堕把 立法结果当做两极分化程度的粗略度量。在第 110 届国会中，提出将近 14 000 份 
立法案，但足只有 499 项法案 (3.3%) 真正变成 了法律 [PS08 】。 事实上，在这 449 项法案 
中，第 144 项只是建议改变联邦大楼的名字。 

侃是，现在美国国会真的比以前更加两极分化了吗？尽管我们也许相信这是事实，但是 
更愿意提供证据。我们将在此使用的方法是，在+考虑党派区别的条件下，用 MDS 对参 
议员聚类进行可视化，以此观察两党成员是否存有混合在一起的情况。可是，在做这些 
事情之前，我们需要一个参议员之间距离的衡董标准。 

幸运的是，我们可以使用立法者的公开记录创建一个合理的距离度量。我们在这里将使 
用立法者的投票记录。和前一部分的例子一样，我们可以使用记名投票记录来看一个左 






04 If 
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法者是支持还是反对一项提案。就像前面例子中用户给出的“拇指向上”或者“拇指向 
下”的评价一样，立法者使用“是（赞成）”或者“否（反对）”对法案进行投票。 

这黾需要给不熟悉美国立法程序的读者解释一下， U 1 名投票是美国国会任何一个会议室 
中最基本的议会程序之一。顾名思义，它是美国众议院和参议院在任何提案生效前都要 
进行的一项程序。两院分别通过不同的机制发起一个记名投票，但是结果基本上是一致 
的。记名投票记录了每个立法者对一项提案所做出的反应。正如之前提到过的，这种投 
票一般采用“赞成”或“反对”的形式，但是稍后我们将会看到实际的投票结果要£加 
复杂一些。 

这份记名投票数据完全可用于衡 i 立法者之间的相似性和差异性，并且对于研究美国国 
会的政治学家来说，是无价的资源。这份数据是如此有价值，以至 T 两位政治学家创建 
了一个统一的可以下载的资源。 Keith Poole (乔治亚大学)和 Howard Rosenthal (纽约 
人学）维护 r 一个网站 A "/?. VAvivvv. v ，(7 W /> w . cow/ ， 它是一个存放所有美国记名投票数据 
的仓库，从第 1 届国会一直到写这本书时的最近-•次 W 会： 第 ill 届国会。 M 然在这个 M 
站上也吋以获得许多其他的数据集，但是我们将只使用美国参议院第101届到 m 届 W 会 
的 id 名投票数据。这些数据放在本书官网的本寧:数据文件夹中。 

在 本章剩 余的部分中，我们将逐一介绍在这份记名投票数据上运行 MDS 算法的代码 。一 
曰.计算出距离的近似偯，我们就可以通过可视化结果来回答这样的 问题： 在使用记名投 
票记录进行聚类时，来自不同党派的参议员会被聚类到一起吗？ 

分析参议员记名投票数据 

正如之前提到的那样，我们巳经收集 r 从第101届~ ill 届国会的所有参议院记名投票数 
据，并且把它们放到本章的数据文件夹下。和之前做过的一样，我们将以加载这份数据 
作为这个案例研究的开始，并且对它做一些分析。在这个过程中，我们将使用两个 R 语 
言函数 序：第 一个是 foreign 库，稍后将 I 羊细讨论它；第二个是 ggplot 2 库，将使用它来 
可视化 MDS 算法的结果。这些数椐文件存放在文件夹下，因此我们使用 
list . files 函数创建一个叫做 data . files 的字符向 M ;， 它包含了所有数据文件的文件名。 


library(foreign) 

library(ggplot2) 

data.dir <- "data/rollcall/" 
data, files <- list, files (data, dir) 


当我们杳看 data.files 变量时，可能注意到这些数据文件的扩展名和本书前面其他章节 
用于案例研究的文本文件有所不同。扩展名 .dta 对应的是 Stata 数据文件。 Stata 是-个 
商业统 UUW 软件，它曾经在学术界非常流行，特别是政治学家喜欢用。因为 Poole 和 
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Rosenthal 决定用这种格式公开这份数据，所以我们需要一个把这份数据加载到 R 语言的 
方法。 


data.files 
[l] "senlOlkh.dta" 
[3] "senl03kh.dta M 
[5] "senl05kh.dta M 
[7] "senl07kh.dta" 
[9] "senl09kh.dta M 
[ll] "senlllkh.dta" 


” senl02kh.dta" 
"senl04kh.dta" 
M senl06kh.dta" 
"senl08kh_7.dta" 
"seniiokh 2008.dta_ 


深入了解-下 foreign 程序包，其设计目标是读取大量的外部数据文件到 Rig 言的数据 
框中，外部数据文件 包括： S 、 SAS 、 SPSS 、 Systat、dBase 以及其他很多软件的数据文 
件。对 T •本次分析来说，我们要分析的数据来自丨丨届国会，从第101届~第1丨1届 ftl 。 
我们将会把所有数据存放到一个对象里，这样就可以一次性处理所有数据。我们将会看 
到，这些数据集是相对较小的，因此在这个案例中不用关心内存的问题。为了整合数据 
集，我们将同时使用 lapply 函数和 read . dta 函数。 

rollcall.data <- lapply(data.files, 

function(f) read.dta(paste(data.dir, f, sep= M "), convert.factors=FALSE)) 

现在，我们有了关于所有 id 名投票的 11 个数据框，它们分别存放在 rollcall . data 变 M : 
中。当我们査看第一个数据框（第101届 W 会的数据）的维度时，看到它有103行和647 
列。我们进一步査看这个数据框的头部，就会看到这些行和列里都有什么。在査#数据 
的头部时，有两个重要的事情需要注意。首先，每一行都对应了美国国会中的一位投 
票者。其次，数据框的前9列包含了那些投票者的身份信息，而剩余的列才是实际的投 
票。在我们可以吏近一步之前，需要了解-下这些身份信息。 


dim(rollcall.data[[l]]) 
[1] 103 647 


head(rollcall.data[[l]]) 



cong 

id 

state 

dist lstate party 

ehi 

eh2 

name 

VI 

V2 

V3 ... 

V638 

1 

101 

99908 

99 

0 USA 

200 

0 

0 

BUSH 

1 

1 

1 鲁 .. 

1 

2 

101 

14659 

41 

0 ALABAMA 

100 

0 

1 

SHELBY, RIC 

1 

1 

1 ... 

6 

3 

101 

14705 

41 

0 ALABAMA 

100 

0 

1 

HEFLIN, HOW 

1 

1 

1 ... 

6 

4 

101 

12109 

81 

0 ALASKA 

200 

0 

1 STEVENS, TH 

1 

1 

1 ... 

1 

5 

101 

14907 

81 

0 ALASKA 

200 

0 

1 

MURK0WSKI, 

1 

1 

1 ... 

6 

6 

101 

14502 

61 

0 ARIZONA 

100 

0 

1 

DEC0NCINI, 

1 

1 

1 鲁" 

6 


某吗列的盘义是显而易见的，比如 lstate 和 name ， 但是 ehl 和 eh 2 说的是什么呢？值得庆幸 
的是， Poole 和 Rosenthal 为所有 i 己名投票数据提供了一个编码 T 册。这个编码手册关于 


注丨： Poole 和 Rosenthal 也提供了一个叫做 readKH 的 R 语言為致，用于读取 .ord 数据类型 a 想要丫 
解更多信息，请 $ 考 http:"rss.acs.“nt.edu/RdocflibraryfpsclfhtmlfreadKH.html 。 
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第 101 届国会的部分可 V 丄在 Jt " p :// www . voteview . com / senate 10 J ./" w 获得，并且在例 9- 1中也 
复制了一份。这个编码手册特別有用，因为它不仅解释了前9列中每一列都包含什么， 
rfii 且说明了毎个投票是怎么编码的，这也是我们马上需要留意的。 


例 9-1 : Poole 和 Rosenthal 提供的记名投票数据编码 

1 . Congress Number 

2. ICPSR ID Number: 5 digit code assigned by the ICPSR as 

corrected by Howard Rosenthal and myself. 

3. State Code: 2 digit ICPSR State Code. 

4. Congressional District Number (0 if Senate) 

5. State Name 

6. Party Code: 10() = Dem.，200 = Repuh. (See PARTY3.DAT) 

7. Occupancy: ICPSR Occupancy Code ― 0=only occupant; 1 = 1 st occupant; 2=2nd occupant; etc. 

8. Last Means of Attaining Office: ICPSR Attain-Oflice Code -- 1 =general election; 

2=spccial election; 3=clectcd by state legislature; 5=appointed 

9. Name 

1() - to the number of roll calls + 10: Roll Call Data — 

()=not a member, l=Yea. 2=Paired Yea, 3=Announced Yea, 

4=Announced Nay. 5=Paircd Nay, 6=Nay, 

7=Present (some Congresses, also not used some Congresses), 

8=Present (some Congresses, also not used some Congresses), 

9=Not Voting 

对我们来说， n 关心投票者的名字以及他们的党派和实 k 的投票。因此，首先我们把 i 己 
名投票数据组织成特定格式，吋以用它创建一个关于投票的合理距离度董。正如我们在 
例 9-1 中所看到的，参议院的记名投票并不是简中.的“赞成”或者“反对”，这两种投票 
还有 Announced (公 开的） 和 Paired ( Sd 对的）两种形式，同时还有 Present (出席）投 
票，也就是说，一个参议员在某个特定法案的投票中巳经弃权，但是他在投票的时候出 
席了 W 会。冇时候，也有 * 些参议员没有出席投票，或者其至还没被选进参议院。已经 
有 r 这么多种可能的投票方式，那么我们该怎样把它们利用起来，转换成便于使用的形 
式来度墩参议员之间的距离呢？ 

我们采用的办法是，通过把相似的投票类型聚集到一起，来简化数据的编码方式。例 
如，“配对投票”的程序是这样的，国会成员知道自己无法出席某个特定记名投票，他 
们可以把自己的投票和另外一位将会和他投相反票的国会成员配对。对于“公幵投票” 
而言，足汶会制定的对参议院或者白宫某个正在进行的投票所做出的仲裁。可是对于我 
们来说，并+怎么关心产生这些投票的机制，关心的是这些投票展现出来的倾向性，如 
支持或者反对。因此，一种聚集方式就是，将所有类型的赞成票和反对票分别放进不同 
的组中。基干同样的逻辑，我们也可以把所有类型的无效投票放到同一组。 


rollcall.simplified <- function(df) { 
no.pres <- subset(df, state < 99) 
for(i in l0:ncol(no.pres)) { 

no.pres[,i] <- ifelse(no.pres[,i] > 6, 0, no.pres[,i]) 

no.pres[,i] <- ifelse(no.pres[,i] > 0 & no.pres[,i] < 4, l, no.pres[,i]) 


222 


第 9 章 



no.pres[,i] <- ifelse(no.pres[,i】> l, -1, no.pres[,i]) 


return(as.matrix(no.pres[,lO:ncol(no.pres)])) 

} 

rollcall.simple <- lapply(rollcall.data, rollcall.simplified) 

图 9-3 演不了将要用于在数据分析中简化 Poole 和 Rosenthal 所使用编码的过程。和上一个 
揆拟数据的例子一样，我们将所有的赞成票编码为 +1， 所有的反对票编码为 -1， 而没 
有投票的观察值编码为0。对 f 距离度来说，这是一种作常直观的数据编码应用。观 
在，我们需要用这种编码方式给数据编码， rfri 且也只需要从数据框中提取投票信总，以 
便在后面的步骤中进行矩阵操作。 


初始编码 




Yea 

i 

Paired Yea 

2 

Announced Yea 

3 

Announced Nay 

4 

Paired Nay 

5 

Nay 

6 

Present Varl 

7 

Present Var 2 

8 

Not Voting 

9 

Not a member 

-- 

o 


简化编码 




All Yeas 

1 

All Nays 

-1 

All Non-voting 

0 


图 9-3: 简化记名投票记录的方法 

为了实现目标，我们定义 rrollcall . simplified 函数，这个函数的唯一参数就足记名投 
票数据，并 a 返冋一个“参议员一投票”矩阵，这个矩阵使用的是简化后的编码。你将 
会注意到，这个闲数的第一步把 State 那一列的值等 T 99 的观察值都刪除了。编码值为 
99的州对应的是美国的副总统，而副总统很少投票，所以把关于他的数据刪除 r 。 然 
后，使用 ifelse 命令对矩阵屮剩下的所有列进行向傲化数值比较。请注葸，我们进行的 
比较是顺序相关的。首先把所有的无效投票（所有编码大于6的投票）编码设霄为0,然 
后，、?•找编码大于0并 R 小 T 4 的投票，也就是赞成票，然后把它们的编码转换成1;敁 
后，所有编码大于4的足反对票，把它们的编码设置为-1。 
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现在，我们把记名投票处理成了和前一部分模拟数据例 f 开始时 ffi 冋的形式，汴11«1*以 
使用与处理模拟评分数据完全相同的方式继续进行处理。在本章后面的内容中，我们将 
产生这份数据的 MDS ， 并且以可视化的方式研究它。 

研究通过国会对参议员进行 MDS 聚类 

和前面一样，第一步是使用“参议员一投票”矩阵创建-个“参议员一参议员”距离矩 
阵，再对这个矩阵应用 MDS 算法。我们将使用 lapply 函数对每一届围会分别进行这种转 
换。铨先进行矩阵乘法，并将结果存放在变景 rollcall . dist 中，然后，再通过 lapply 函 
数调用 cmdscale 函数实现 MDS 。 关于 MDS 操作，有两点需要注意。第一， cmdscale 喊数 
默认在二维空间进行 MDS 计算，因此设置 k =2 是多此一举。可是，这样做还是冇用的， 
在代码共享时，陡式地指出所进行的操作更容易让人明 A ， W 此这样做是最好的方式。 
第二，我们把所有点都与-1相乘。这样做完全是为 r 可视化，把所有点的 x 坐标都翻转 
r ， 我们会看到，民主党人被放到左边，共和党人被放到右边。在美国的政治背 U 下， 
这是一个有用的视觉暗示，因为我们一般认为民主党人的意识形态偏左，而共和党人的 
意识 形态偏右。 


注意： 你也许巳经猜到，我们是在完成 MDS 町视化之后，才发现民主党人出现在 x 轴右边，共和 
党人出现在左边。做好数据分析最重要的就是，在完成计算之后，对如何提升方法的效*: 
和结裝的表达进行灵活处理和批判性思考。因此，尽管在这里 我们直 接给出这样的处现方 
式，但是你要知道，这是在经过第一次尝试之后，我们才决定在阁像中翻 Kx 轴的。 


rollcall.dist <- lapply(rollcall.simple, function(m) dist(m %*% t(m))) 


rollcall.mds <- lapply(rollcall.dist, 

function(d) as.data.frame((cmdscale(d, k=2)) * -l)) 

下一步，我们需要把相应的身份数据加到 rollcall . mds 的坐标点数据抿中，以便在加入 
了党派数椐后对其可视化。在下一个代码块中，我们将对 rollcall . mds 列表使用一个简 
单的 forM 环来完成这个 I ：作。首先，把坐标点的列名分别设成 x 和 y 。 然后，我们访问 
rollcall . data 中的原始 id 名投票数据框，并且提取参议员姓名这 •列。 还 id 得吗？我 
们得首先去掉副总统的数据。此外，有些参议员的名字包含了 “名”和“姓”，何是吏 
多是只有“姓”。为了保持一致性，用逗号拆分字符串向 Mname (姓名），并将拆分得 
到的前半部分保存在变量 congress . names 中。最后，使用转换闲数把党派信总作为因子 
添加进去，同时添加国会的编号。 

congresses <- 101:111 

for(i in l:length(rollcall.mds)) { 

names(rollcall.mds[[i]]) <- c("x", "y") 

congress <- subset(rollcall.data[[i]], state < 99) 

congress.names <- sapply(as.character(congress$name), 
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function(n) strsplit(n, ••[, ]")[[l]][l]) 
rollcall.mds[[i]] <- transform(rollcall.mds[[i]], name=congress.names, 
party=as.factor(congressSparty), congress=congresses[i]) 

head(rollcall.mds[[l]]) 



X 

y 

name 

party 

congress 

2 

-11.44068 

293.0001 

SHELBY 

100 

101 

3 

283.82580 

132.4369 

HEFLIN 

100 

101 

4 

885.85564 

430.3451 

STEVENS 

200 

101 

5 

1714.21327 

185.5262 

MURK0WSKI 

200 

101 

6 

-843.58421 

220.1038 

DECONCINI 

100 

101 

7 

1594.50998 

225.8166 

MCCAIN 

200 

101 


在添加了上下文数据之后，观察 rollcall . mds 中第一个 W 会信息的前儿个元素，可以看 
阽这 个数椐框部分信总。在本载包含的 Rig 言代码中，有很多用干循环数据框列表的命 
令， kh 的是为每一 raw 会分別创违一个可视化结果。为了方便起见，我们在这里仅 f 乂 
包禽这份代码的一部分。这电列出的代码只画出第 H 0 届 W 会的数据，但是只需对代码 
进行冏单修改就可以画出其他任何一届国会的数据。 

cong .110 <- rollcall.mds[[9]] 

base.110 <- ggplot(cong.llO, aes(x=x, y=y))+scale_size(to=c(2,2), legend=FALSE) + 
scale_alpha(legend=FALSE)+theme_bw()+ 

opts(axis.ticks=theme_blank(), axis.text.x=theme_blank(), 
axis.text,y=theme_blank(), 

title="Roll Call Vote MDS Clustering for 110th U.S. Senate", 
panel.grid.major=theme_blank()) + 

xlab("")+ylab("")+scale_shape(name="Party", breaks=c("l0(T,"200 M , M 328"), 
labelsrc( M Dem. M , "Rep.", "Ind. M ), solid=FALSE) + 
scale color manual(name="Party", values=c(•• 100" = "black","200" = "dimgray", 

一 _ M 328 M = M grey H ), 

breaks=c("100","200","328"), labels=c("Dem.”, M Rep. M , M Ind.")) 

print(base.I10+geom_point(aes(shape=party, alpha=0.75, size=2))) 
print(base.llO+geom_text(aes(color=party, alpha=0.75, label=cong.ll0$name, size=2))) 

现在，你应该很熟悉 ggplot 所做的很多事情了。可是，在创建这个实例的阁形时，方式 
把存+同。典型的过程足，首先创建一个 ggplot 对象，然后添加一个 geom 或者 statS ， 
但是在这个实例中，我们创建了一个叫做 case . 110的基本对象，它包含了用于作阁的所 
行格式化特征。这些特征包括大小 （ size ) 、 阿尔法 （ alpha ) 、形状 （ shape ) 、颜色 
( color ) 和参数 （ opts ) 层。 

之所以这样做是因为我们想要画两个阁：第一个图，以不同党派对应不同的形状代表 
数据点_图，第二个图，以参议员的名字代替代表数据点，并 R . + N 的党派用不14的 
颔色来_图。通过首先添加所有这些格式化层到 base. 110 对象，然后就 "I 以简单地增加 
sgeom point 层或者 geom_text 层到 base 对象上，以获得想要的图形。图 9-4 展示 f 这些画 
图结果。 
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第 110 届美国国会记名投票的 MDS 聚类 



图 9-4: 第110届美国国会记名投票的 MDS 聚类： a ) 以党派进行参议员 聚类； b ) 以名字进行 
参议员聚类 

首先来解答-开始所提 M 题： 在使用 ill 名投票 m 录进行聚类时，不同党派的参议员能否 
聚类到一起?从图 9-4 来看，答案 SuL 然足 +能。 在民主党人和共和党人之间有一个相当大 
的空 A 。 这份数据也验证 r 一个唞实，那就是人们通常认 为的： 这些参 i 义员的对 立相当 
明显。我们可以看看参议员 Sanders , 福蒙特州的独立参议员，他的位置非常靠左，而参 
ii WCoburn 和 DeMint 的位 相当辑 右。 Nff : 明的是，参 l 义 felCollins 和 Snowe 在第 110 
W 闺会克近中间位泞。在笑国参议院的敁近大多数大 喂立法 战中，£是这些温和的 Jt 和 
党参 i 义员成为中心人物。 

Vj -个并 趣的分析结果是参 I 义 KO bam a 和 McCain 在第 1 1() 届 [El 会的位？ E 。 Obama 单独 
出现在图中的左 h 角，而 McCain 和参议员 Wicker 和 Thomas 聚集到一起，并且离中心更 
近。尽管这个结果的一个合理解释足， Obama 和 McCain 在投票上具有非常强的互补性， 
但是我们知道数据背后的 故氣，电可 能足因力这两位参议员由丁•总统竞选导致了 他们在 
很多投票屮同时缺席。也就是说，当他们对同一个法案进行投票时，他们也许已经具有 
了相对不同的投票习惯，可是投票记录的区別不是特別人， m 是他们缺席的国会，通 
常会对同一个立法投票。当然，这引出了另一个 问题： 如何解释 Wicker 和 Thomas 的位 
置呢？ 

对于最后的可视化来说，我们将研究所有_会按时间排序的 MDS 图。这样做应该能给我 
们一些 启示： 随若时间变化，参议员整体上以党派聚集，而这也将使我们以更有说服力 






党党 

主和他 

民共其 
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的 i 止椐 声明： 现在#1 义员比以往更加两极分化。在前面的代码块中，我们通过 do.call 
和 rbind 把 rollcall . mdstl (缩进一个数据框，力所有的数椐画了一个争独的图。接下来将 
要圆出和前面步骤得到的一样的图，不过增加了一个 facet _ wrap ， 以便按时间顺 序肢示 
不同时期国会的 MDS 阁。图 9-5 展示了这个可视化结果^ 

all.mds <- do.call(rbind, rollcall.mds) 
all.plot <- ggplot(all.mds, aes(x=x, y=y))+ 

geom_point(aes(shape=party, alpha=0.75, size=2)) + 
scale 一 size(to=c(2,2), legend=FALSE)+ 
scale_alpha(legend=FALSE)+theme_bw()+ 
opts(axis.ticks=theme_blank(), axis.text.x=theme_blank(), 
axis.text.y=theme_blank(), 

title= M Roll Call Vote MDS Clustering for U.S. Senate 
(101st ■ lllth Congress)", 
panel.grid.major=theme_blank())+ 
xlab("")+ylab("")+ ~ 

scale—shape(name="Party", breaks=c("l00","200","328"), 
labels=c( ,, Dem. ,, > "Rep. M , M Ind."), 
solid=FALSE)+facet_wrap( ,>, congress) 

all.plot 



图 9-5: 美国参议院记名投票 MDS 聚类（第101届〜第111届国会) 


MDS ： 可视化地研究参议员相似性 
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以 记 名投票作为参议院之间区别的度董标准，从这些结果中可以看出，美国参议院实际 
上和过去一样具有党派性。大体 t 来说，在每一届国会中我们只能看到大量的三角和圆 
形分别聚集到一起，而只有很少的异常数据点。你也许会说，第101届国会和第102届 
国会两极分化不那么严重，因为两个聚类看 h 去离得很近。但这是坐标轴刻度造成的结 
果。 M 忆一下， MDS 程序只足简单地基干计算所得的所有观察值之 N 的距离矩阵，尝试 
去最小化一个损失函数。仅仅是因为第101届国会和第102届国会的作图刻度比其他很多 
届国会 都小，这并不意味着这两届国会的两极分化更轻。这种差异可能是由很多原因造 
成的，例如观察值的数1：。然而，因为我们在一个黾独的图中对它们进行了可视化，必 
须在不 M 的面板屮使用相同的刻度，所以这会导致有些图看上去史拥挤，而有些图铺得 
更开 。 

从图 9-5 中可以得到的 fi 要结论是，在根据记名投票对参议员进行聚类时，不 N 党派聚集 
到一起的情况作常少。正如 通过圆 阇和三角聚类中分别存在的层次性看到的那样，尽管 
在党派内也许有轻微的变化，但是在党派之间的变化非常少。几乎在所有实例中，我们 
肴到共和党人和共和党人聚类到一起， rfii 民主党人和民主党人聚类到一起。当然，还有 
除丫党 派之外的其他信息，我们可以把感兴趣的这类信息添加到这个图中。例如，我们 
也许想知道，是否来自同一地区的参议员会被聚类到一起；或者，是否不同委员会成员 
会形成聚类。这些都是有趣的问题， iti 义读者超越当前这个初步的分析，深入挖掘这呰 
数据。 
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第 10 章 

kNN ： 推荐系统 


k 近邻算法 

第9章介绍了如何利用简单的相关性技术，根据国会议员的投票记录来度 豎他们 之间的 
相似程度。本章将会讨论如何利用同样的相似度度量方法来为网站用户进行推荐。 

本章将1+论的算法称为 々近邻 ( k-Nearest Neighbors , kNN ) 。它也许是本书中所有机器 
学习算法中最浅显易愫的一个了。如果有人想根据相似性推荐一些东西，几乎大部分人 
都会自动选择 k 近邻算法的最简单的 版本： 他们会为用户推荐一首与其喜欢的歌曲最相 
似的，佴是他还未曾听过的歌。这种做法其实是1近邻算法。完整的 kNN 算法是这种直 
觉做法的一种扩展，在做出推荐之前，你可能会同时参考多于1个数据点。 

完整的 A 近邻算法原理和我们向朋友们征求意见的原理差不多。首先，我们找到一些和 
我们品味相似的朋友，然后向他们征求意见。如果他们中大多数推荐了同样的东西，我 
们猜测这应该也是我们喜欢的东西。 

我们该如何把上面的直观想法转换成一个可行的算法呢？在真实数据上进行推荐之前， 
让我们先从简单的情形 幵始： 给点进行二分类。如果你还记得第3章中首次提到的分类 
问题，就不会对图 10-1 感到陌生。 
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图 10-1: 线性决策边界的分类问题 

正如我们当时解释的那样，你可以用 glm 函数对数据点进行逻辑回归，生成一条称为决 
策边界 (decision boundary ) 的直线。在介绍逻辑回归的同时，我们也说了，类似图 10-2 
那样的问题是不能通过一条简单的线性决策边界来解决的。 

面对图 10-2 那样的有复杂决策边界的问题，你该如何构造一个分类器呢？你可以尝试使 
用非线性的方法，例如将在第12章中讨论的核方法 （kernel trick ) 。 

另外一种方法是利用目标点周围点的信息来帮助做分类。例如，你可以在 B 标点周围画 
一个圈，然后根据圈内点的情况来对目标点进行分类。图 10-3 展示了这种称为“草根民 
主” （Grassroots Democracy ) 算法的一个例子。 
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图 10-2: 非线性决策边界的分类问题 


这个算法很有用，不过它有个很明®.的 缺陷： 为了定义“附近”的点，我们必须为所画 
的 W 定一个十•径。如果所有的数据点之 N 的距离都差不多，那问题还不大。而如果有些 
数据点之间的距离非常近，而另一些数据点之间的距离非常远，我们就不得不选择一个 
非常大的半径_圈，以致对某些数据点的分类效果非常差。我们该怎么解决这个问题？ 
比较明显的一个办法就是不冉使用一个圆来圈定一个点的邻居，而改成参照与它最近的 
灸个点。这些点就称为纟近邻。一旦我们找到了 A 近邻，分析它们 都是® 于什么类别的，然 
后根据少数服从多数原则来为目标点定义类別。让我们把上面的思路用代码写出来。 
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图 10-3: “草根民主”算法 
首先，加载数 据集： 

df <- read . csv (' data / exampledata . csv ') 
head ( df ) 

# X Y Label 

#1 2.373546 5.398106 0 

#2 3.183643 4.387974 0 

#3 2.164371 5.341120 0 

UA 4.595281 3.870637 0 

#5 3.329508 6.433024 0 

#6 2.179532 6.980400 0 

接下来，我们要计算数据集之中所有点两两之间的距离，并把它们保存在距离矩阵里 
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面， jt 屮数椐点/和数据点 y •之 N 的距离保存在 distance . matrix [ i , j ] 里面。下面的代码 
使用欧式距离生成 f 这个距离 矩阵： 

distance.matrix <- function(df) 

{ 

distance <- matrix(rep(NA, nrow(df) A 2), nrow = nrow(df)) 

for (i in l:nrow(d 千 ）） 

{ 

for (j in l:nrow(df)) 

{ 

distance!i, j] <- sqrt((df[i, 'X'] - df[j, 'X']) A 2 + (df[i, 'Y'] - df[j, 'Y']) 

A 2) 

} 

} 

return(distance) 

} 

生成 r 距离矩阵之后，我们需要一个函数来返回某一个点的 & 近邻。这并不困难，假设 
你想要査到第/个数据点的 a 近邻，你可以取出距离矩阵的第/行，这样就可以得到其余每 
个点到第/个数据点的距离。把这-行排序之后，就得到了一组经过排序的点的列表，而 
排序依据是它们与第/个数据点之间的距离。这个排序结果列表的前々个点，除了输入点 
自身以外## 1 ，就是与数据点/最近的々个近邻。 

k.nearest.neighbors <- function(i, distance, k = 5) 

{ 

return(order(distance[i, ])[2:(k + l)]) 

} 

上向这些丁作都准备好了之后，我们会创建一个名为 knri 的函数，它包含两个输入，分 
别是一个数据抿和参数幻这个函数会为数据框中的每一个点做出预测并返回。我们的 
函 数泮不通用，这是因为在这里假定分类标签都保存在一个叫做 Label 的列里面，不过 
这没关系，它只是让我们快速理解 A 近邻到底是怎么应用的。在 R 语言里面，有现成的灸 
近邻实现可用于真实的应用，我们马上就会讨论到它。 

knn <- function(df , k = 5) 

{ 

distance <- distance.matrix(df) 

predictions <• rep(NA, nrow(df)) 

for (i in l:nrow(df)) 

{ 

indices <- k.nearest.neighbors(i, distance, k = k) 


译注 I: 总是这个排序列表的弟一个，因为自己和自己的距离始终为 0 。 
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predictions[i] <- ifelse(mean(df[indices, 'Label']) > 0.5, 1, 0) 

} 

return(predictions) 

} 

正如你所看到的，我们把彳个近邻的分类标签值求平均，根据平均 fft 是否大干 0.5 来给出 
预测，这遵循了一个少数服从多数的投票原则。调用这个函数会返回由预测结果组成的 
向 ft ， 我们可以把数据框作为参数传进去，然后评估一下分类 效果： 

df <- transform(df, kNNPredictions = knn(df)) 

sum(with(df, Label U kNNPredictions)) 

#[1] 7 

nrow(df) 

#[l] 100 

在 100 个数据点之中， 我们预 测错了7个点，也是说准确率是93%。对于这么简黾的一个 
算法来说，这还算不错。我们已经解释 r 々近邻算法是怎么工作的，接下来将々近邻算法 
应用在一些真实的数据上，比如关干 R 语言程序包使用情况的数据。 

不过在开始之前，先展示一下如何在你自己的项目屮使用 R 语言的 A 近邻 实现： 

rm('knrT) # In case you still have our implementation in memory. 
library(.class.) 

df <- read.csv(’data/exampledata.csv') 
n <- nrow(df) 
set-seed ⑴ 

indices <• sort(sample(l:n, n * (l / 2))) 

training.x <- df[indices, 1:2] 
test.x <- df[-indices, 1:2] 
training.y <- df[indices, 3] 
test.y <• df[-indices, 3] 

predicted.y <- knn(training.x, test.x, training.y, k = 5) 
sum(predicted.y != test.y) 

HD 7 

length(test.y) 

#[1] 50 

在这里，我们使用了交叉验证测 W ： 了 class 程序包中的 knn 函数。令人意外的是，我们同 
样预测错 T 7 个点，不过这次我们的测试集只有50,所以我们的准确率就只有86%了，不 
过，这也算不错了。为了做个对比，让我们看看逻辑回归模型的 表现： 
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logit.model <- glm(Label 〜 X + Y, data = df[indices,]) 

predictions <- as.numeric(predict(logit.model, newdata = df[-indices, ]) > 0) 
sum(predictions != test.y) 

#[ 1 ] 16 

正如你所看到的，最好的逻辑回归模型分错了 16 个点，准确率只有68%。当你的问题完 
全不是线性的时候， （ 近邻的表现比其他方法要好得多。 

R 语言程序包安装数据 

现在，我们巳经人致 f 解了如何使用 kNN 算法，接下来看看如何利用 kNN 算法进行推 
荐。•种推荐的方法足，利用 kNN 箅法为目标用户推荐那些与他已经喜欢的物品相似的 
物品，这种方 法为某 于物品 ( item - based ) 的方法。另一种方法是，我们先利用 kNN 算 
法找到与 R 标用户品味比较相近的用户，然后根据这些品味相近的用户的喜好来为目标 
用户进行推荐，这种方法称为基于用户 （ user - based ) 的方法。 

两种方法听 h 去都比较合理，不过在一个具体的应用中，总会有某一种方法更适合。如 
果你的用户比物品多（就像 NetflixN 站 h 的用户数比电影数多一样），使用基于物品的 
推荐方法会节省很多的计算时 N 与存储空间，因为你只需要计算物品之间的两两相似度 
就可以了。如果你的物品比用户多（比如，当你刚刚开始收集用户数据的时候），那么 
你最好使用基于用户的推荐方法。本章将会关注基于物品的推荐方法。 

不过，在讨论 推荐系 统的细 Yi 算法之前，让我们看一下打算进行推荐的应用场景和数 
据。我们使用的数据是在 Kaggle 网站 （ http :// www . kaggle . com /) 上进行的 R 程序包推荐 
竞赛中，为参赛者提供的数据。这份数据包括大约50名 R 语言程序员安装所有 R 程序包的 
信息。这个数据集并不大，不过足够用来分析不同程序包的流行程度以及它们之间的相 
似度。 


注意： 竞赛屮的获胜者通常都使用 fkNN 算法，尽管只是把它作为整个推荐算法的一部分。获胜 
者经常 使州的 另外一个算法叫做矩阵分解 (matrix factorization) 。关于矩阵分解算法，我 
们件小洋细展开，不过如果你想搭建一个能够实际应用的工业级的推荐系统，需要考虑将 
kNN 算法和矩阵分解模型结合起来使用。私实上，最好的系统通常将 kNN 、 矩阵分解和其 
他分类器组 合在一 fe 生成 - 个超级模型 （ super-model ) 。将多个分类器组合起来的一些技 
巧通常称为集成方法 (ensemble method ) 。 


在这个 R 程序包推荐竞赛中，参赛选手需要根据一个程序员巳经安装的程序包信息来预 
测这个程序员足否会安装另一个程序包。在预测一个程序员是否会安装新的程序包时， 


译注 2: 这里的其他方法是指线性方法。 
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你需要看这个程序员是否安装了与这个程序包类似的其他程序包。换句话说，你会很自 
然地使用基于物品的 kNN 方法。 

那么，让我们先把数据加载进来看一下，再为程序包之间的相似度做一个定义。因为为 
竞赛准备的原始数据比较复杂，所以我们将数据简化了一下，数据格式是这 样的： 每一 
行表示一个“用户-程序包”对，第三列表示这个用户是否安装了这个程序包。 

installations <- read.csv('data/installations.csv') 
head(installations) 

# Package User Installed 

#l abind l l 

林 2 Acceptancesampling l 0 

#3 ACCLMA 1 0 

#4 accuracy l 1 

#5 acepack 1 0 

林 6 aCGH.Spline 1 0 

正如你所看到的，用户 1 安装了 abind 程序包，但是没有安装 Acceptancesampling 程序 
包。我们把这份原始数据的格式转换成另外一种格式，就可以得到程序包之间的相似度 
的度量。我们将要把目前的“长数据格式” （long form ) 转换成一种“宽数据格式” 
(wide form ) ，其中每一行对应一个用户，而每一列对应一个程序包。上述转换可以使 
用 reshape 程序包中的 cast 函数来实现。 

library(•reshape') 

user.package.matrix <- cast(installations. User ~ Package, value = 'Installed') 
user.package.matrix[, 1] 

#[1] 1345678 9 U 13 14 15 16 19 21 23 25 26 27 28 29 30 31 33 34 
#[26] 35 36 37 40 41 42 43 44 45 46 47 48 49 50 51 54 55 56 57 58 59 60 61 62 63 
#[51] 64 65 

user.package.matrix[, 2] 

#[l] 11011111111001111100111111101010111111 
#[39] 11111111011111 

row.names(user.package.matrix) <- user.package.matrix[, 1] 
user.package.matrix <- user.package.matrix[, -l] 

首先，我们使用 cast 函数来创建用户-程序包矩阵。我们发现，矩阵的第一列保存的仅 
仅是用户的 1 D ， 因此把它们保存在矩阵的 row . names 变量之后就把第一列 删除。 用现在 
的用户-程序包矩阵计算程序包相似度就非常容易了。为简单起见，我们使用列之间的 
相关性来衡量程序包之间的相似度。我们可以使用 cor 函数来计算相关性。 

similarities <- cor(user.package.matrix) 

nrow(similarities) 

#[1] 2487 
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ncol(similarities) 
#[l] 2487 


similarities[l, 1] 

#[ 1 ] 1 

similarities[l, 2] 

#[l] -0.04822428 

现在，我们可以计算所有两两程序包之间的相似度了。如你所见，程序包1与它自己完 
全相似，与程序包2却不那么相似。不过， kNN 使用的是距离，而不是相似度。因此， 
我们需要把相似度转换成距离。这里我们通过一些巧妙的数学技巧来把相似度1转换成 
距离 0, 而把相似度- 1 转换成距离无穷大。下面的代码实现了这个 H 的，如果它们不那 
么直观，请花一点时间仔细思考一下。 

distances <- -log((similarities / 2) + 0.5) 

完成1：面的距离度量函数后，我们就可以开始实现 kNN 算法了。在这里，我们使 m 
/c=25, 不过你最好使用不间的 々来看 看哪个々值对应的推荐效果最好。 

为了进行推荐，我们假设，如果一个程序包的邻居程序包被安装的越多，那么它就越有 
可能被用户安装。接猗我们根据一个程序包的邻焐中12经被安装的个数来给程序包排 
序，将排序最靠前的程序包推荐给用户。 

因此，我们来实现 k.nearest.neighbors 函数： 

k.nearest.neighbors <- function(i, distances, k = 25) 

{ 

retum(order(distances[i, ])[2：(k + l)]) 

} 

使用最近邻居的信息，我们根据它的邻居有多少个已经被安装来预测它会被安装的概 
率： 


installation.probability <- function(user, package, user.package.matrix, distances, k * 25) 

{ 

neighbors <- k.nearest.neighbors(package, distances, k = k) 

return(mean(sapply(neighbors, function (neighbor) {user.package.matrix[user, 
neighbor]}))) 

} 

installation.probability(l, 1, user.package.matrix, distances) 

#[l] 0.76 

从卜.面的代码可以看出，对 f 用户丨来说，他有 0.76 的槪率可能安装了程序包1。因此, 
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我们要做的是，找到用户最可能安装的程序包，再把它推荐给用户。我们通过循环遍历 
所有的程序包，分別计算出它们被安装的槪率，再给出最有可能的 那个： 

most.probable.packages <- function(user, user.package.matrix, distances, k = 25) 

{ 

return(order(sapply(l:ncol(user.package.matrix), 

function (package) 

{ 

installation.probability(user, 

package, 

user.package.matrix, 
distances, 
k 二 k) 

}), 

decreasing = TRUE)) 

} 

user <- l 

listing <- most.probable.packages(user, user.package.matrix, distances) 
colnames(user.package.matrix)[listing[l:lo]] 

#[l] "adegenet" "AIGIS" "ConvergenceConcepts" 

#[4] "corcounts” "DBI M "DSpat" 

#[ 7 ] "ecodist” "eiPack H "envelope" 

#[lo]"fBasics" 

这种推荐方法的-大好处在干，它是可解释的。我们可以说，之所以推荐程序包 P 给用 
户，是闪为他已经安装了程序包 X 、 Y 和 Z 。 这种可解释性在有些应用场景中是非常有 
用的。 

我们仅 W 使用相似性度量就构建了一个推荐系统。在第11章中，我们将深入地利用社交 
网络的信息来构达一个推荐引笮。 
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第 11 章 

分析社交图谱 


社交网络分析 

社交网络无处不在。根据维基百科 （ Wikipedia ) 的数据，在互联网上有超过200个活 
跃的社交网站，其中还不包括那些交友网站。从图 11-1 可以看出，根据 Google 趋势 
(Google Trends ) 的数据，从2005年开始，全球对于“社交网络”的兴趣一直在稳定 
增 K 。 这种情况是非常合 理的： 对于社会交往的渴®，是人类敁基本的天性，而这种 H 
会本质必然会体现在我们的技术中，就显得不足为奇了。但是关于社交网络的映射和让 
模，并没有什么新东西出现。 

在数学界，一个社交网络分析的例子是， L 十算一个人的埃尔德什 （ Erd 6 s ) 数，它衡最 
这个人与著名的高产数学家保罗•埃尔德什之间的距离。埃尔德什是20世纪无可争议的 
敁高产数学家，他在职业生涯中一共发表了 1500多篇论文。这些论文很多是与其他人合 
著的，而埃尔德什数衡量 r 一位数学家到埃尔德什的合著者 圈子的 距离。如果一位数卞 
家与埃尔德什合著过一篇论文，那么他的埃尔德什数是1,也就是说他在由20世纪数学 
家组成的网络中，到埃尔德什的距离是1。如果另外一个作者和埃尔德什的合著者合作 
过，但是没有和埃尔德什本人直接合作过，那么这位作者的埃尔德什数就是2,以此类 
推。尽管这个衡量标准不是特別严谨，但是它粗略地反映了一个人在数学界的声望。埃 
尔德什数使我们能够迅速获得围绕保罗•埃尔德什的庞大数学家网络。 

欧文•戈夫發 （Erving Goffman ) 是20世纪姑著名的知识分子之一，他对社会科学有巨大 
贡献，堪称社会学界的保罗•埃尔德什。关于人类的交往天性，他的评论是最佳的评论 
之一： 
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当人们在別人 ifii 前时，他们能发挥的就不 W 仅是身体功能了，同时也能发挥交流功 
能。这种发挥交流功能的机会不比发挥物理功能的机会低，也是每个人都关注的® 
要*情，而它在每种社会形态中，都处在严格的标准规范下，从而产生了一种沟通 
的交通秩序。 


—— 欧文•戈夫曼 

《公共场所 行为： 关于社会组织聚集的说明》 (1996) 



图 11-1: Google 搜索中 Social networks (社交网络)的增长 

戈夫曼提到的“交通秩序”指的就是 社交网 络。人们渦望彼此交往并适应社会，这种渦 
嗜 的副产品就是彼此之间形成 r 结构性很强的图，它提供了一种由人 们的& 份标识到 W 
史行为记录的“映射”。像 Facebook 、 Twitter 和 Linkedln 这些社交网络服务，它们只是 
提供 fW 于进行“交往”这种人类 tt 本质行为的髙度程式化的模板。这些服务的创新之 
处件不是它们的功能，而足提供了洞察大部分人类社交关系图的力法。对于像我们这柞 
的黑客来说，社交网络站点暴露出来的数据就是名副其实的美妙计泉。 

但是社交关系图的价值并不局限于社交网络站点。有其他儿种关系也可以建模成一个网 
络，并且它们中大多数的数据也都可以通过各种各样的互联网服务获得。例如，我们可 
以基于观众在 Netflix 上看过的电影，在他们之间逮立关系映射。同理，基干听众使用像 
Last . fm 或者 Spotify 这样的音乐服务的行为模式，我们可以演示不 I 司音乐类型之间是如 
何关联的。我们也吋以用-个更基本的方式把一个计算机局域网，甚至整个互联网的结 
构，都用一大堆点和边来建模。 

尽管得益+社交网络站点的传播，现在对社交 M 络的研究非常流行，但是一般所说的 
“社交网络分析”，指的是在过去几十年中一直被使用和发展的丄具集合。它的核心 
思想是，对干各种网络的研究，都依赖干使用图论的语占，去描述有内在联系的对 
象。9 •在 1736年，欧拉 （ Euler ) 就使用了点和边的槪念，公式化地描述柯尼斯堡桥 
(Konigsberg Bridge ) 问题。 
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注意： W 尼斯氓桥问 题， 是旅行商问题的一个早期变型，它要求设计-条穿过东普尼斯氓 
(现在的俄罗斯加里宁格勒）的路径，必须满足在每一座桥都只能走一遍的前提下，把这 
个地方所有的7座桥都走遍。欧拉把这座城市的地图转化成-个有4个点（城市的区域）和7 
条边 （7 庵桥）的简羊围，泮 H . 解决了这个问题。 


早在20世纪20年代，著名的心理学家 Jacob L . Moreno 开发了研究人类关系的一种方法， 
这种方法叫做“计1：社会学” （ sociometry ) 。 Moreno 感兴趣的是，人们的汁.会交往如 
何影响他们的幸福感，因此他询问人们都有哪些朋友，由此开始映射这种关系结构。在 
1937年，人类学家 Joan Criswell 使用 Moreno 的计 8： 社会学方法研究白人和黑人初中生之 
间的种 族分歧 IJC 371。 

我们认为，现代社交 M 络分析是多种学科理论和方法的聚合产物。这些理论和方法很 
大一部分来自社会学，包括 Linton Freeman、Harrison White、Mark Granovetter 以及其 
他 i 午多杰出学者都作出了巨大贡献。类似，许多贡献也来自干物理学、经济学、计算机 
科学、政治学、心理学以及无法一一列举的其他学科和学者。在这里无法列出太多的作 
者和引文，而让有很多凇籍苦作综述 r 这个巨人研究领域的各种方法。其中一些最容易 
ffl 解的巾〕籍包括：《社会 网络 分析：方法与应用 》 （Social Network Analysis , Stanley 
Wasserman 和 Katherine Faust 著 [ WF 94]) 、《社会与经济 N 络 》 （Social and Economic 
Networks , Matthew O . Jackson^tMJ 10]) 以及《网络、增 及 rff 场》 （ Networks , 
Crowds，and Markets，David Easley 和 Jon Kleinberg 著 [ EK 10]) 0 在这个社交网络的简单 
介绍当屮，我们只涉及了这个主题的很小一部分。对于那些有兴趣学习更多知 m 的读者 
来说，强烈推荐阅读上面提到的任何一本著作。 

/川么我们将在本章中涉及哪些内容呢？按照本书的-贯做法，我们将专注干一个社交 M 
络的案例研究，它将带着我们经历整个数据研究周期， 包括： 获取社交网络数据；对数 
据进行清理和结构化处理；最后分析数据。在这个案例中，我们专注于当今杰出的“公 
开”社交 网络： Twitter . “公开”是带引号的，这是因为 Twitter 并没有真的公开到允许 
我们随 怠访问 它所有数据的程度。和其他许多社交网络一样，它提供了一个带有严格 
访 H 频率限制的 API (应用程序编程接口）。因此，我们将要构建一个用于从 Twitter 提 
取数据的系统，它既不会超过 这个访 问频率限制，也不会违反 Twitter 的服务条款。事实 
上，我们在本章中将不会直接访问 Twitter 的 API 。 

我们的项 B 以构建一个本地网络或者称为个体 N 络 （ ego - network ) 开始，并 R 使用 
与1彳•算埃尔德什数同样的方法，从这个起点开始，像滚雪球一样扩展。就 t 次分析而 
言，我们将研究_子发现的方法，这些方法试图将社交网络分割成凝聚圈子 （cohesive 
subgroup ) 。在 Twitter 屮，可以通过这种分析知道一个用户 M 干哪些 社交圈 户。最后， 
W 为本朽是关于机器学习的，所以我们将使用 Twitter 的社交关系图来建立一个关于“吋 


分析社交图谱 


241 



能感 兴® 的人”的推荐引繫。 


我们会避免使用难以理解的专业术语去描述正在做的事情。可是，为了完成本章的目 
标，有一鸣术语值得去学会使用。我们只介绍了 “个体网络”这一个术语，它一般用于 
描述•种图因为我们接下来将会多次使用“个体 M 络”，所以有必要清楚定义这 
个术语。“个体网络”是指在网络中 直接包 围在一个单独节点周 W 的社交关系结构。 
具体来说，“个体 M 络”是一个 M 络的子集，它 包括： 一个种子（个体）和它的邻居， 
也就是直接与种 T •相连的那些节点，连接种子和这些点的边，以及这些邻居之间连接 
的边。 


以图的方式进行思考 

在深人分析 Twitter 的社交关系图之前，先退一步，对网络下个定义，这有利于下一步工 
作。在数学中，一个网络（成者叫阁）只不过足一组点和边的集合。这些集合没有任何 
1二 F 文含义，它们只是为了呈现 * 些边把一个个点连接起来形成的区域。最抽象的公式 
化描 述足： 那些边除了把两个点连接起来之外，不包含任何信息。不过，接下来我们得 
看到这种常见的数据组织方式如何迅速变得复杂化。考虑图 11-2 中的三个图片。 

图 I l -2 a 足一个无向图的例子 （undirected graph ) 。在这种情况卜_，图的边是没有方向 
的。换一种方式考虑这种情况 就是： 点之间的边暗示我们点的连接关系是双向的。例 
如， Dick 和 Hairy 共享一个连接，因为这个图是无向的，所以我们可以设想这意味着他们 
彼此之 N 可以通过这个联系互换信息、食物等。另外，因为这是最基本的网络，所以很 
容忽略这样一个事实： 即使用 的是无向图，我们也已经在前面提到的敁一般的图的基础 
上增加了复杂性。在图丨 1-2 所示的所有图中，我们为每个点都增加了标签。虽然这是一 
个额外添加的信息，但是它在这里非常有用，当我们考虑如何从一个网络抽象映射到对 
实际数据的描述时，它是非常重要的。 

继续看图 ll -2 b ， 这是一个有向图。在这个图中，每条边都有一个表明它的方向的 箭失。 
现在边+再是双向的了，而是表示了一种单向关系。例如， Dick 和 Drew 都有一个到 John 
的联系，而 John 只有一个到 Harry 的联系。在图 ll -2 c ， 图中增加了 “边标签”。特别 
是，我们为每个边都增加了一个正号或者负号标签。它可以用来表示这个网络中成员之 
N 的“喜欢”或者“不喜欢”关系，或者接近的某种程度。和 点标签 一样，边标签也增 
加了上卜‘文信息。这些标签也可以比现在这种简单的二元关系史加复杂，它们也可以是 
表示强度或者关系类型的权重值。 


译注丨：在本章中，图和网络是同一帔念。 
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图 11-2: 不同类型的 网络： a ) 无 向图； b ) 有 向图； c ) 带权有向图 


因为我们在互联网上将会遇到很多不 N 形式的社交关系数据，所以上述各种图之间的区 
別就是需要 *: 点考虑的 f 。 阁的 不同结 构可以影响人们使用相应服务的方式，因此也 
会影响我们分析相关数据的方式。考虑基干两种不同类型图结构的流行社 交网络站点： 
Facebook 和 Twitter 。 Facebook 是个大型的无向社交关系图。因为“好友关系”要求通过 
验证，所以所有的边都表示一个为好友的关系。这个特点导致 Facebook 演化为•个拥 
W 密集本地网络结构的相对更加封闭的社交网络，而不是一个巨大的开放服务屮心。 
而 Twitter 是一个巨大的有向图。 Twitter 上的“关注”互动方式不需要互相验证，因此 
Twittei ■的无向图具有很强的不对称性，名人、新闻报道机构以及 艽他 卨级用户都是图中 
主要的信息广播点。 

尽管上述两种互联网服务之间节点连接方式的区別看上去很细微，但是产生的结果却 
有巨大的差別。通过对互动方式进行细微改变， Twitter 创建了一个完全不同与 Facebook 
的社交关系图，同时人们使用 Twitter 与使用 Facebook 之间的方式也具有很大的不同。当 
然，产生这种不同的原因不只是因为图的结构，也包栝 Twitter 的140个字符限制和大多 
数 Twitter 账户的完全公开本质，但是这个图的结构很大程度上影响了整个 M 络的运转方 
式。在本章的案例分析中，我们将专注于 Twitter , 因此需要在分析过程中的所有方面都 
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考虑它的有向图结构。首先面临的一个挑战是，在不超过 AP 〖使用颊率限制，且不违反 
使用条款的情况下，收集 Twitter 中的关系数据。 


用黑客的方法研究 Twitter 的社交关系图数据 


在写本章的时候， Twitter 提供了两种不同访问形式的 APU 第一种是无身份验证的，它 
允许每小时进行150次请求。第二种是开放授权 ( OAuth ) 身份认证 API , 对干调用的限 
制是鉍小时350次。每小时150次 API 调用的限制实在是太严格了，以致我们无法在合理 
的时 M 内抓取到需要的数据。第二种350次的限制还是太严格了，而且，我们没有兴趣 
创违一个需要身份验证的 Twitter 应用。我们想要快速获得数据来构建一个网络，然后开 
始钻研这份数据。 


注意： 如果你不熟悉表述性状态转移应用程序编程接口 （ RESTfulAPl ) ,或者没有听说过开放授 
权，济不要担心。对于这个例子来说，我们将不关注这些细节。如果你想要学习更多与它 
们相关的知识，我们建议你阅读相关服务的文档。对干 Twitter 来说，最好的参考资料是关 
API 的 FAQ ： https : lldev . twitter . comldocslapi - fa ( f 。 


遗憾的是，如果使用 Twitter 自己提供的 API ， 我们将无法完成这个任务。为了获得想要 
的数据，我们将不得不使用另外一份 Twitter 社交关系图数据 资源： Google 社交关系图 
API (SocialGraph API , SGA ) 。 Google 在 2008 年引入 SGA 的目的是为了建立用于所有 
社交_络网站的统一身份识别。例如，你也 I 午拥有几个在线服务账号，所有这些账号都 
可以解祈成一个统一的电子邮件地址。 SGA 的想法是，使用这个统一账号信息来收集你 
跨多个服务的完整社交关系图。如采你很好奇 Google 中有多少关干你的数字信息，在任 
意 M 页浏览器中输人如下地址 

https://socialgraph.googleapis.com/lookup?q=@EMAIL_ADDRESS&fme=l&pretty=l 


如采你把 EMA 1 L _ AD 【) RESS 替换成合适的电子邮件地址，这个 API 将在浏览器窗口中返 
回一个原始 JSON 数据结构，从中你可以看到 Google 已经存储了多少关于你的社交关系 
图。如果你有一个用上®输人的电子邮件地址注册的 Twitter 账号，你将会在返回数据中 
发现你的 Twitter 页面链接地址 （ URL ) ，它是其中一个被解析为电子邮件地址的社交关 
系图服务。 Twittei •是 SGA 的众多公开社交关系图数据抓取目标之一。因此，我们可以使 
用 SGA 査洵指定用户的社交网络，然后创建用 f 我们研究的网络。 

使用 SGA 的最主要优势是，不像 Twiner API 那样每小时只提供很少鼉的査询， SGA 每天 
允许50 00() 次查询。即使是在 Twitter •这个级别的数据，这也足够用于创建绝大多数用户 

译注 2: 遺憾的是， Google 已经关闭了这项股务。 
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的社交关系 [%] 广。当然，你如果你是艾什顿•库奇#注 3 (Ashton Kutcher ) 或者 蒂姆奥 
莱利 ifil4 (Tim O ' Reilly ), 这个案例研究中提到的方法将不起任何作用。也就是说， 
如果你是一位名人并且也对于做这个练习有兴趣，欢迎你使用我们的 Twitter 用 户名： 
@johnmyleswhite 或者 @ drewconway 0 

https://socialgraph.googleapis.com/lookup?q=http://twitter.com/ 
drewconway&edo=l&edi=l&pretty=l 


举例来说，我们利用 Drew 的 Twitter 豇面来探索 SGA 如何组 织数据结构。在你的 M 页浏 
览器中输入上面的 API 査洵语句。如果你愿意，欢迎你使用自己的 Twitter 用户名査询 
SGA 。 和之前-样， SGA 返回描述 Drew Twitter 关系的原始 JSON 数据结构。在 API 査 
WU 中，我们看到三个重要的参数: edo 、 edi 和 pretty 。 因为 pretty 参数用于返回格式化的 
JSON ， 所以它只在浏览器视图中有用。在实际解析这个 JSON 以生成网络的时候，我们 
将丢弃这个参数。不过 edi 和 edo 对应 Twitter 关系的方向。 edo 参数代表“出边” (edges 
out ) ，也就足 Twitter 上的明友，而 edi 的意思是“入边” (edges in ) ,也就是 Twitter 上 
的扮丝。 

住例 11-1 中，使用 ^ drewconway 查询得到简化版的格式化原始 JSON 数据结构。我们最 
感兴趣的 JSON 对象是节点 （ nodes ) 。它包含关于 Twitter 用户的一些描述信息，但是其 
中电歌要的是节点的“人边”和“出边”关系。 nodes _ referenced 对象包含被査向节点 
的所有 Twitter 好友。他们是这个节点关注的其他用户（出度 （ out - degree )) 。类似， 
nodes _ referenced _ by 对象包含 丫所有 关注这个节点的用户（入度 （ in - chegree )) 。 


例 1 M : Google 社交关系图的原始 JSON 数据结构 
{ 

"canonicalmapping" : { 

"http://twitter.com/drewconway": "http://twitter.com/drewconway" 

}, 

"nodes": { 

"http://twitter.com/drewconway" : { 

"attributes": { 

"exists ”： M l", 

"bio ”： "Hopeful academic, data nerd, average hacker, student of conflict.", 
"profile ”： "http://twitter.com/drewconway", 

"rss": "http://twitter.com/statuses/user_timeline/drewconway.rss", 

"atom": "http://twitter.com/statuses/user_timeline/drewconway.atom", 

"url": "http://twitter.com/drewconway" 

}, 

"nodes referenced" : { 


译注 3: Ashton Kutcher 是美国好策攻艿星。 


译 ; i4: Tim O Reilly 是 O Reilly 公司创始人 9 
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" nodesreferencedby " : { 


菁告： SGA 爬虫只足扫描 Twitter 用户间的公开链接，并且将这种災•系存放到它的数据戍中。因此 
这份数据中不包括私有 Twitter 账号。如果你检査自 d 的 SGA 数据，也 IT •会注意到，它并没 
有准确地反映你当前所有的 Twitter 关系。特别是 ， node referenced 对象也返 M 你+再又-注 
的用户。这是因为 SGA 只会周期性地抓取活动链接，^以它的缓存数据并不总是反映最新 
的数据。 


当然，我们并不想通过浏览器进行与 SGA 相关的工作。这个 API 原本就是用来被程序访 
问的，而它返回的 JSON 需要被解析成图对象，以便我们》『以创违并且分析这些 Twitter 
网络。为了创建这些图对象，我们的策略是使用一个单独的 Twitter 用户作为种子（回忆 
一下埃尔德什数的计算法方法），并且由这个种子为起点创建这个网络。我们将使用一 
个叫做滚雪球取样的方法，它以一个单独的种子为起点，然后找到所有连接这个种 f 的 
“入度”和“出度”。然后我们将使用那些连接节点作为新的种子，并且将这个过程重 
复一定次数。 

对于这个案例研究来说，我们将会进行两轮取样，这样做有两个原因。首先，我们感兴 
趣的是映射并且分析这个种子用户的本地网络结构，以便给种子用户推荐他可能感兴趣 
的人。其次，因为 Twitter 社交关系图的规模，如果使用更多的轮次取样，我们也 i 午会很 
快超过 SGA 的使用率限制和我们的硬盘存储空 N 。 记住这些限制，在下一节中，我们将 
以开发一个使用 SGA 进行工作，并且解析数据的基本函数作为开始。 

使用 Google 社交关系图 API 进行工作 


Google 社交关系图 API 的主要变化 

在本书将要印刷的时候，我们注意到 Google 社交关系图 API 存储的 Twitter 数据量和 
我们完成本章的草镐时不再一样了。因此，如果你完全按照本节提供的代码运行程 
序，结果数据将会和完成本章案例研究所需要的数据有很大的不同。遗憾的是，我 
们对于解决这个数据问題无能为力。我们决定保留本节，是因为我们认为揭示如 
何使用 API 进行工作相当重要，而且我们也不想让读者错过这段讲解。我们在本书 
的补充文件中提供了一些样本数据集，它们是在 Google 社交关系图 API 发生变化之 
前，使用本节的代码收集的。你可以使用这份数据完成本章案例研究的剩余部分。 
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我们啟先嬰做的是加载生成 Twitter 关系图所需的 R 语言程序包。为 T 从 SGA 创逮这些 
图，我们将使用3个 R 语 a 程序包。 RCurl 程序主要提供 f 一个到 libcurl 库的接 U ，我们将 
使 H 彳它给 SGA 发送 HTTP 请求。然后，我们将使用 RJSONIO 程序包解析 SGA 返回的、存 
放迮 R 语言列表容器内的 JSON 数据结构。碰巧这两个程序包都足由 DuncanTemple Lang 
开发的，他已经开发 r 很多非常重要的 R 程序包(参见器 fl / iaf . or 发 /) * 最 
后，我们将使用 igraph 程序包创建和存储 M 络对象。 igraph 是一个强大的 Rig 言程序包， 
用亍创 i £ 和操作图对象， rfri 且在开始使用 M 络数据进行工作时，它的灵活性对我们来说 
非常有价值。 

library(RCurl) 

library(RJSONIO) 

library(igraph) 

我们耍写的第一个使用 SG A 工作的函数柚象级別最髙。 这个闲 数叫做 twit ter . 
network ， 它使用一个给定的种子用户喪洵 SGA , 解析 JSON 数据结构，并且返回一个对 
象来表示种子用户的个体 M 络。这个函数只有•个 参数： user , 它是一个表示 Twitter 种 
子用户的字符率。然后这个函数以 GET 模式创逑相应的 SGA 请求 URL , 并且使用 RCurl 
中的 getURL 函数执行 HTTP 请求。因为滚雪球搜索一次需要发送很多 HTTP 请求，所以我 
们创建 f 一个 while 循环，通过循环条件确保可以处理 SGA 服务不可用的情况。如果没 
有这个条件，这脚本将会忽略浪雪球搜索中的这些节点，但是有 r 这个检查，它就会回 
滚并 K 尝试重新 请求， 直到收集到相应的数据。一旦确认 API 请求返回了所需的 JSON 数 
据结构，就使用 RHS 0 NI 0 程序包中的 from ] S 0 N 函数来解析它。 

twitter.network <- function(user) { 
api.url <- 

paste("https://socialgraph.googleapis.com/lookup7qshttp: "twitter.com/", 

user, M &edo*l8iedi=l M , sep= H ") 
api.get <- getURL(api.url) 

# To guard against web-request issues, we create this loop 

# to ensure we actually get something back from getURL. 
while(grepl("Service Unavailable. Please try again later.", api.get)) { 

api.get <- getURL(api.url) 

} 

api.json <- fromDSON(api.get) 
return(build.ego(api.json)) 

} 

在解析 JSON 数据结构之沿，我们志要用解析得到的数据创建 M 络。 ㈣ 想一下可知，数据 
中包含两种类型的关系 ： node referenced (出度）和 nodes referenced by (入度 ） 。 
因此，为了得到两种类型的边，我们需要创建两个程序分支来处理数据。为了完成这个 
冃标，我们定义了 build . ego 函数，它接受解析来自 SGA 的 JSON 数据得到的列表对象作 
为参数， 并且创 迮网络。吋足在这之前，我们必须清洗 SGA 返回的关系数据。如果仔细 
检杳 API 请求返回的所有节点，你将会发现有些节点并不是 Twitter 用户。返回结果中包 
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含的这些关系和这个案例没有任 H 关系。例如，很多 Twitter 数据列表都有表示“账户” 
( account ) 重定向的 URL 。 尽管这些都是 Twitter 社交关系图的一部分，但是我们不想在 
图中包含这些节点，因此需要定义一个辅助函数宋刪除它们。 

find.twitter <- function(node.vector) { 

twitter.nodes <- node.vector[grepl( M http://twitter.com/", node.vector, 

fixed=TRUE)] 

if(length(twitter.nodes) > 0) { 

twitter.users <- strsplit(twitter.nodes, M /") 
user.vec <- sapply(l:length(twitter.users), 

function(i) (ifelse(twitter.users[[i]][4]=="account", 

NA, twitter.users[[i]][4]))) 
return(user.vec[which(!is.na(user.vec))]) 

} 

else { 

return(character(0)) 


find . twittter 函数用来执行数据淸洗 i ： 作，它通过检丧 SGA 返回的 URL 的结构来验证那 
些真正的 Twiner 用户，并删除社交关 系阁中 的其他部分。这个函数做的第一件事是，通 
过使用 grepl 函数检査 URL 是否包括 “ http :// twitter . com ” 模式，来核实 SGA 返 ㈣ 的 
节点确实来 GTwitter 。 对干那拄匹配了模式的 URL 列表来说，我们需要找出与实际账户 
对应的那一条 URL , 而不是幣个 URL 列表或者 甫定向 URL 。 完成这个任务的一个办法 
是，使用“反 斜杠” (/) 来分割 URL 列表，然后奄找 u account w 字段，它表示-个非 
Twittei ■用户 URL 。 识別出那些可以匹作 Twitter 用户揆式的 URL 后，我们只需要返冋那 
苎没有叫配这个模式的 URL 。 这个闲数的返回值将告诉 build . ego 闲数哪呰节点应该添 
加到网络中。 

build.ego <- function(json) { 

# Find the Twitter user associated with the seed user 
ego <- find.twitter(names(json$nodes)) 

# Build the in- and out-degree edgelist for the user 
nodes.out <- names(json$nodes[[l]]$nodes_referenced) 
if(length(nodes.out) > 0) { 

# No connections, at all 

twitter.friends <- find.twitter(nodes.out) 

if(length(twitter.friends) > 0) { 

# No twitter connections 

friends <- cbind(ego, twitter.friends) 

} 

else { 

friends <- c(integer(0), integer(o)) 


else { 

friends <- c(integer(0), integer(O)) 

} 

nodes.in <- names(json$nodes[[l]]$nodes_referenced_by) 
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if(length(nodes.in) > 0) { 

twitter.followers <- find.twitter(nodes.in) 
if(length(twitter.followers) > 0) { 

followers <- cbind(twitter.followers, ego) 

} 

else { 

followers <- c(integer(0), integer(O)) 

} 

} 

else { 

followers <- c(integer(0), integer(o)) 

} 

ego.el <- rbind(friends, followers) 
return(ego.el) 

} 

识别出列表中 £ 确的 芴点 之后，现在就可以开始构建 m 络了。为 r 完成这个任务，我们 
将使 nibuild . ego 函数来创建一个“边列表”，用它描述种 f 用户的出度和入度关系。 
一个“边列表” (edge list ) 是只有两列的简单矩阵，它用干表示有向图屮的关系。第 
一列表示起始节点，1«第二列表示终到节点。你可以理解为这种结构表示第一列中的卞 
点连接到第二列中的节点。通常来说，“边列表”将包含那些是整数或者字符串类型的 
打点的标签。在这个例子中，我们将使用 Twitter 的用户名（字符 $) 作为标签。 

尽答 • build . ego 函数的代码很长，但是实际卜.它的功能很简单。它的大多数代码用来在 
构迖“边列表”时进行数据组织和错误枪査。你可以看到，&先检查的是调用结果中 
nodes _ referenced 和 nodes _ referenced _ byii 否都返回『一搜关系数据。然后，我们检査 
哪些 宵点 是实& 的 TwiuerHi 户。如果这两个检奔屮的任 何一个 失败，那么返回一个特殊 
的向 最作为 函数的输出： c ( integer ( o ), integer (0)) o 通过这个过程，我们创建 了两个 
“边列表”矩降，分別叫做好友 ( friends ) 和扮丝 （ followers ) 。最后一步，我 们使用 
以1“闲数来把这两个珩阵绑定到一个叫做6 8 0^1的中独 “边列表 ”中。在没有数据的 
情况1、'我们使用 r 特殊的向彳 ftc ( integer (0), integer ( O ))， 因为 rbind 将会忽略它， 
所以结果小会受到影响。通过在 R 语言控制台中输入以下代码，你可以看到这 一点： 

rbind(c(l,2), c(integer(0), integer(O))) 

[,1】 [,2] 

[1,] 1 2 


注意： 你也 i 午会好介，为什么我们 H 是创迮关系的 “ 边列表 ”， 而不是使) IligraphK 接创违围。 
因为 igraph 存储图的方式是放在内存中，所以很难像滚雪球取样要求的那样以迭代方式创 
达图。因此，更简申.的办法娃先创违整个关系数据集，然后把这份数据转化成-个阁。 


现在我们已经完成了建图脚本的核心代码。 build . ego 函数完成 f 最难的那部分 工作： 
接受经过解析的 JSON 数据结构，并把这些来自 SGA 的数据转换成吋以通过 igraph 转化 
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为-个网络对象的数据集。我们需要完成的最后一部分代码，是利用所有函数一起实 
现滾雪球取样功能。我们将定义 twitter . snowball 函数来进行滚赏球取样，并且定义一 
个简争的辅助函数 get . seeds ， 用它来产生需要访问的新种子列表。和 build . ego 函数一 
样， twitter . snowball 函数的主要目的足产生关系 N 络的边列表。不过在使用 twitter , 
snowball 的时候，我们将把多次调用 build . ego 闲数的结果绑定到•起，并且返回一个 
igraph 图对象。为了简便起见，我们从定义 get . seeds 函数人手，尽管它将用到 twitter , 
snowball 函数中产生的数据。 


get.seeds <- function(snowball.el, seed) { 

new.seeds <- unique(c(snowball.el[,l],snowball.el[,2])) 
return(new.seeds[which(new.seeds!=seed)]) 

} 

get . seeds 函数的目标是，从一个边列表中找到一组不《复的非种子节点作为新的种子 
节点集合。通过把由两列组成的边列表矩阵降维成一个向量，然后对向 ft 中的元素进行 
去重，就可以很容易地完成获得候选种 f 的任务。去重得到的新向 M ; 叫做 new . seeds ， 
而 a 这个 向量中 只有不是种子的允紊才会被函数返回。这是个简单而有效的方法， m 是 
在使用它的时候有-点我们必须考虑。 

get . seeds 函数只会确保新种子和当前的种子不一样。在整个滚雪球取样的过程中，我 
们想要使用某些方法来确保不会重复访问巳经生成网络结构的那些节点。从技术的角度 
来说，这一点不是 特别® 要，因为我们可以很容易在最终的边列表中删 除重复 的行。 
可是，从实践的角度来说，这很重要。在创建新网络结构之前，通过刪除候选新种子 
列表中那些已经访问过的节点，可以减少必须做的 API 调用次数。这又减少了超过 SGA 
访 M 频率限制的可能性， r « H . 使脚本的运行时 N 更短。我们把这个功能加入到 twitter , 
snowball 函数中，而不是让 get . seeds 函 数来处理这个问题，这是因为在 twit ter . 
snowball 函数中巳经将整个网络的边列表存储在内存里了。这也确保 f ? 兑们在建&整个 
滾雪球取样的过程中，内存里没有存放整个网络的边列表的多份拷 W 。 在这种 
数据规模下，我们需要非常注怠内#，特别是在使用像 R 这种程序设 it •语言的时候。 

twitter.snowball <- function(seed, k=2) { 

# Get the ego-net for the seed user. We will build onto 
林 this network to create the full snowball search, 
snowball.el <- twitter.network(seed) 


林 Use neighbors as seeds in the next round of the snowball 
new.seeds <- get.seeds(snowball.el, seed) 

rounds <- 1 # We have now completed the first round of the snowball! 

# A record of all nodes hit, this is done to reduce the amount of 

# API calls done, 
all.nodes <- seed 

# Begin the snowball search... 
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while(rounds < k) { 
next.seeds <- c() 
for(user in new.seeds) { 

林 Only get network data if we haven't already visited this node 
if(!user %in% all.nodes) { 

user.el <- twitter.network(user) 
if(dim(user.el)[2] > 0) { 

snowball.el <• rbind(snowball.el, user.el) 

next.seeds <- c(next.seeds, get,seeds(user.el, user)) 

all.nodes <- c(all.nodes, user) 


new.seeds <- unique(next.seeds) 

new.seeds <- new.seeds[!which(new.seeds %in% all.nodes)] 
rounds <- rounds + l 


林 It is likely that this process has created duplicate rows. 

# As a matter of housekeeping we will remove them because 
林 the true Twitter social graph does not contain parallel edges, 
snowball.el <- snowball.el[!duplicated(snowball.el),] 
return(graph.edgelist(snowball.el)) 


twitter . snowball 函数实现的功能正是你所期望的。这个函数有两个 参数： seed 和 k 。 
参数 seed 是表示 Twitter 用户的字符串，在我们的案例中，它应该是 “drewconway” 或奔 
“johnmyleswhite” 。 参数 k 是一个大干等干 2 的整数，它决定滚雪球取样会进行几轮搜 
索。在 M 络常用语中，（•般足指一个图中的度或者距离。在这个案例中，它是指滾雪 
球取样将会访问到的节点在网络中与种子节点的最大距离。我们第一步是由种子节点建 
立初始的个体 M 络，并以此为起点，获得新的种子节点开始下一轮。 


我们通过调用 twitter . network 和 get . seeds 来完成上述工作。现在就可以开始迭代地进 
行壤雪球取样广。整个取样过程发生在 twitter . snowball 函数的 while 循环中。循环基 
本逻辑结构如 F : 打先，判断我们是否达到取样婊大距离。如果没有，就继续进行下一 
层的 m 雪球取样。我们通过迭代地为毎个新种子用户建立个体网络来完成取样任务。 
all . nodes 对象用千保存 Li 经访问过的节点，换句话说，在建立一个节点的个体网络之 
前，我们先检杳它是否在 all . nodes 对象中。如果不在，那么把这个用户的关系增加到 
snowball . el 、 next . seed 和 all . nodes 对象中。在进行下一轮的滚雪球取样之前，我们检 
査新的 new . seeds 向 H :， 确保没有任 H 的重复元素。正如前面所说的，这样做是为了防止 
重复访问节点。最后，我们增加轮次计数器。 

在最后一步中，我们获得 snowball . el 矩阵，它表示整个滚雪球取样获得的样本边列表， 
然后使用 graph . edgelist 函数把它转换成一个 igraph 图对象。可是，在转换之前，我们 
最后还有一件必须要做的事。因为 SGA 中的数据并不完美，偶尔有一些样本之间包含 
重复的关系。从图模型理论上来说，我们可以保留这些关系，并且使用一种叫做“多重 
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图” ( multi - graph ) 的特殊类型的图来表示我们的 Twitter 网络。-个多重图只是在节点 
之间具有多个边的图。尽管这种图也 I 午在某些环境下是有用的，但是对干这个模型来 
说，几乎没有任何有效的社交网络分析标准方法。另外，因为在这个案例中，那些额外 
的边是错误造成的，所以我们将在生成一个图对象之前删除这些冗余的边。 

我们现在有了建立 Twitter 网络所需的所有功能性函数。在下一节中，我们将额外编写一 
个脚本，使用它可以方便迅速地从已知种子用户生成网络结构，并且对生成的那些 ftl 做 
一 些基本的结构分析，以发现图中存在的区域群落结构。 

分析 Twitter 社交网络 

现在可以开始建立 Twiuer 社交网络了。为了介绍另外一种创建和运行尺语言脚本的方 
法，我们在这个案例中将使用在命令行中运行的 shell 脚本。到目前为止，我们已经写了 
很多在 R 语言控制台中运行的代码，这将是你使用这门语言的主要方式。可是，你偶尔 
也会碰到需要使用不同输入进行多次运行的任务或者程序。在这种情况下，写一个在命 
令行运行并且接受标准输人的程序可能会更加方便。我们将使用 R 语言安装时自带的 R 脚 
本命令行程序来完成这个工作。在我们运行程序之前，首先浏览一遍这份代码，以便理 
解它究竟做了哪些事情。 


警告： 回忆一下，因为 Google 社交关系围 API 的变化，所以在3下这段•的时候，我们不再能够牛 
成新的 Twiuei •社交网络数据了。因此，对丁•本孕剩余的部分，我们将使用第一次收染到的 
关干 john 的 Twitter 社交网络数据。 


因为我们也许想要为很多不冏的用户建立 Twitter 社交 M 络，所以我们的程序应够能够接 
受不同的用户名和输入，并且生成相应的数据。在内存中建立了网络对象之后，我们将 
对它进行一些基本的网络分析，以发现潜在的圈7结构，并把这些信息增加到这个图对 
象中，然后把它输出到磁盘文件。首先加载 igraph 函数库和之前建立的函数，这些函数 
放 & google _ sg ./? 文件中 。 


library(igraph) 
source('googlesg,R') 
user <- 'johnmyleswhite* 

user.net <- read.graph(paste("data/ n ,user, V", user, " net.graphml", sep 
format = "graphml") 

再次使用 igraph 函数库来创建和处理 Twitter 社交图对象。我们使用 source 函数来加载前 
面几节所写的函数。因为我们不会去为这个案例研究生成新数据，所以加载了以前保存 
在知 /i Aimy /打 vv / i ⑹文 件夹中的用户 Joh n 的 Tw i tte r 网络数据。 
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警告： 给 Windows 用户的 提示： 你也许 >tSftDOS 命今行运 行这个 脚本。在这种情况下，你只志 
要把 user 变镊设沒成你想要为其逮&社交 M 络的 Twitter 用户，然后按照你以前正常使 H1DOS 
的方式修改并运行脚本。在打 ./? 文件中的代码也需要注意这一点《» 


在前商 几节中创逮了所有必要的辅 助闲数 之后，我们只需要把种子用户传给 twitter , 
snowball 函数，就可以开始丁作了。另外，因为在这个例子屮我们感兴趣的是逮立种子 
用户的个体网络，所以将只进行两轮 滚雪球 取样。在本章的后面部分，我们将把网络文 
件加载进图形可视化软件 Gephi 中，它允许我们为数据建立漂亮的可视化图形。 Gephi 冇 
一蜱用于可视化的保留变 疑名。 其中之一是 Label 变量，它用来标记图中的节点。因为 
igraph 默认把标记信息丫/•放在叫做 name 的顶点厲性屮，所以我们需要 创逮一 个叫做 Label 
的新顶点属性，它的值和 name —样。我们使用 set . vertex.attribute 函数来完成这个工 
作，它接受 t . 一步创建的 user.net 阁对象、一个新的属性和为这个属性賦值的数据向 U 
作为输人。 

user.net <- set.vertex.attribute(user.net, "Label", 
value = get.vertex.attribute(user.net, "name")) 


注意： Gephi 足一个开源、跨平台 图形吋 视化与操作 平台。 M 然 Ri / jd 的内 SN 络岈视化 T ： H 很有 
用，俏是汴不满足我们的需求。 Gephi 是特意为网络可视化设计的，并 IL 包含了作•多用7创 
违高质最网络图形的冇用特性。如果你没有安装 Gephiift 者已经安装 f -个 H 1 版本。我们强 
烈推荐你安装般新的版本， " I * 以 hkhttp : //gephi wrg / 获得。 


现在已经建*了图对象，我们将对它做一些基本网络分析，以降低复杂性 并几发 现一些 
它的 K 域群落结构。 

区域圈子结构 

分析过程中的第一步是提取图的核心元紊。我们想要从 user.net 对象中提取两个有用的 
子图。我们将进行1核分析”来提取图形的2核子图——这是第一个子图。根据定义， A 
核分析将基于节点的连通性来分解•个图。为了找到一个图的“核数”，我们想要知道 
具有某个度的节点有多少个。 々核分 析中的 k 表示分解所得子图的度。因此， 一 个图的2 
核子图就是由度大 于等干 2 的节点构成的+图。我们对丁•提取 2 核子图感兴趣的原 W 是， 
进行滚雪球搜索的一个副作用是会在网络外围产生很多单边连接的附属节点。因为这些 
附厲 W 点对网络结构信息的贡献非常少，所以要刪除这些点。 

可足， Twitter 图是有向的，也就是说它的节点既有人度又有出度。为了找到与分析 H 标 
最相关的那些节点，我们将使用 graph.coreness 函数来计算每个节点的核数，通过将函 
数参数设置为 m 0 de =" in ", 来使用节点的人度进行计算。这样做是因为我们想保留那些 
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至少接收两个边的节点，而不是那些至少发出两个边的节点。由子那些在滚雪球取样中 
要删除的节点很可能具有指向网络的连接，而不是来网络的连接，因此我们使用人度 
来找到它们。 

user.cores <- graph.coreness(user.net, mode="in") 
user.clean <- subgraph(user.net, which(user.cores>l)-l) 

subgraph 函数接收一个图对象和一个节点集作为输人，并且返回原图由这些节点产生的 
子图。为了提取 user . net 图对象的2核子图，可以使用 R 语言的 which 函数来找到那些入 
度核数大于1的节点。 

user.ego <- subgraph(user.net, c(0, neighbors(user.net, user, mode = "out"))) 


齊告：使用 igraph 进行工作时，缺令人沮丧的 W 题之一是 igraph 使用 0 索引存 ft # 节点，而 RiS 言的 
索引从1开始。在2核子图的例子中，将会注怠到我们从 which 函数的返冋结果中减去1， 
以免陷入可怕的“差1”错误。 


我们将要提取的第二个关键子图是种 f •节点的个体 网络。 回忆一下，它是由种子节点的 
邻语产牛.的子阁。幸运的是， igraph 中的 neighbors 函数 n I " 以识 別这些节点。 n 〖是和前 
面一样，我们必须考虑到 Twitter 的有向 RR 结构。因为一个节点的邻居既町以是人边连接 
的，也吋以是出边连接的，所以我们必须告诉 neighbors 函数想要哪一种。对干这个例 
子来说，我们将使用由出度邻居产生的个体网络，换句话说就是种子用户关注的那些 
Twitter 用户，而不是那些关注种子的用户。从分析的角度来说，研究某个人关注的那些 
用户也许电加有趣，特別蛙在你研究与自己相关的数据时。这也就是说，另外一种研究 
方式吋能也是有趣的， rfd 我们也欢迎读者使用入度邻居 ® 新运行这份代码，来看看会有 
什么结果。 

在本章的剩余部分，我们将专汴干个体 M 络，但是2核子 W 对其他 M 络分析很有帮助， 
因此将把它作为数据提取结果的一部分进行保存。现在，我们已经做好准备来分析个体 
网络以找到区域圈子结构了。在这个例子中，我们将使用最基本的一个方法来决 定圈子 
成员： 某 于节点距离进行层次聚类。这个方法很难闬一句话说清楚，但是它的槪念相当 
简单。假设节点（在这个案例中就是 Twiuer 用户）连接的越近（它们之间的中间节点个 
数越少），就越相似。这是非常合理的， W 为我们认为具有共同兴趣的人们会在 Twitter 
上互相关注，那么他们之间的距离就更短。因为在人们的个体网络中也 I 午存在多个圈 
子，所以已知一个用户， 一件 很有趣的事情是观察他的圈子网络结构是什么样子的。 

user.sp <- shortest.paths(user.ego) 
user.he <- hclust(dist(user.sp)) 

进行这个分析的第一步是测景图中所有节点之间的距离。我们使用 shoirtest.paths 函数 
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进行 讣 算，它返回一个 NX N 矩阵，在这里 N 是图中节点的个数，而每一对节点之间的 
距离就是矩阵中由这两个节点定位的元紊值。我们将使用这些距离来基于节点之 M 的邻 
近程度 il •算节点分割。顿名思义， “ M 次” (hierarchical) 聚类有很多的层。随着分割 
个数的增加，聚类过程试图将距离敁近的节点保持在相同分割中，层次聚类中的 G (也 
就是 分割） 就是这样被创建出来的。扩展层次结构每增加一层，我们都把分割数加 I 。 
通过这个方法，我们可以把-个图迭代地分解为更小粒度的节点组，一开始所有的节点 
都在同-个组中，并且不断向下进行层次分解，直到所有的节点自身都构成一个黾独 
的组。 

RiS 言自带了 I 午多方便的函数用于聚类。在这个例子中，我们将使用 dist 函数和 hclust 
函数的组合。 dist 函数将由观察矩阵生成一个距离矩阵。在这个案例中，因为已经用 
shortest.paths 函数计算出了距离，所以在这里 dist 函数仅仅是把已经计算出的矩阵转 
换成 hclust 确数可以使用的格式。而 hclust 函数的功能是进行聚类，并且返冋一个包含 
我们所需全部聚类信息的特殊对象。 

当你已经有了某些层次聚类的结果之后，一件有意义的事情是观察聚类分割的树状阉。 
一个树状图就是像树那样的图形，它展示 了随着 层次从上向下移动，聚类如何进行分 
割。这样做将使我们对个体网络的圈子结构有一个初步 r 解。例如，我们来检杳 John 的 
Twitter 个体 M 络树状图，它就存放在本饫的 data 文件夹中。为了査看他的树状图，我们 
将加载他的个体网络数据并进行聚类，然后把 hclust 函数对象传给 polt 函数，它知道怎 
么画出这个树状图。 

user.ego <- read.graph('data/johnmyleswhite/johnmyleswhiteego.graphml', format = 

•graphml.) 

user.sp <- shortest.paths(user.ego) 
user.he <- hclust(dist(user.sp)) 


plot(user.he) 


观察图 11-3， 可以看到 John 的 Twitter 社交网络出现了某些确实很有趣的圈子结构。在两 
个高 JB 次圈子之间，看上去分割得相当明显，而它们内部则是更小的 圈子，并且 结合作 
常紧密。当然，每个人的数据都有所不同，而你能看到的_子个数将很大程度上取决于 
你的 Tw iuer 个体网络的大小和密度。 

尽管从学术研究的角度来说，使用树状图检査聚类是很有意义的，但是我们更想用网络 
视图观察它们。为 H 故到这一点，需要把聚类分割数据增加到节点中，可以通过一个简 
申.的循环把前10个非平凡的分荆增加到网络中。“非平凡”的意思是指，除了第-个分 
割之外的分割，闪为那个分割把所有的节点放到相同的组中。尽管就整个聚类层次 Ifli 言 
它很重要，但是它不会带给我们任何区域圈子结构。 
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图 11-3: John 的 Twitter 个体网络层次聚类树状图，沿着 y 轴进行层次分割 


for(i in 2:10) { 

user.cluster <- as.character(cutree(user.he, k=i)) 
user.cluster[l] <- "0 M 

user.ego <- set.vertex.attribute(user.ego, name=paste( M HC M ,i,sep=""), 
value=user.cluster) 

} 

cutree 函数在层次结构中为给定层的每个节点选择所厲分割（即它完成了树的切 割）。 
聚类兑 法并不知道我们把以种子节点为焦点的个体网络传给了它，所以它把种子节点和 
其他节点一起聚类到层次结构的每-层。为了在后面的可视化过程中更容易识別种子用 
户，我们把它分配给它自己的聚类： “0” 。 fi 后，我们使用 set . vertex.attributes 闲 
数把这些信息增加到图对象中。现在我们已经有了一个包含 Twitter 用户名，以及分析得 
到的前10个聚类分割的图对象。 

在可以使用 Gephi 对结果进行可视化之前，我们需要把这个图对象保存到文件中。我们 
将使用 write . graph 函数把这些数据导出为 GraphML 文件。 GraphML 是众多的网络文件 
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存储结构之一，而且是基于 XML 的。它对我们很有用，因为我们的图对象包含了 许多元 
数据，比如节 点标签 和聚类分割。和大多数基于 XML 的格式一样， GraphML 文件人小可 
能会迅速膨胀，并且也小适合简中.地存放关系数据。关于 GraphMUA£. 信息，请参考 
http :" gniphml .graphdrawing . org / 0 

write.graph(user.net, paste("data/", user, .7”, user, "net.graphml", sep-" M ), 
format="graphml .’） 

write.graph(user.clean, paste("data/ n , user, user, " clean.graphml", sep*"”), 

format="graphml") 

write, graph (user, ego, paste("data/” ， user, V", user, "—ego.graphml", sep='_"), 
format="graphml") 

我们保存 了这个 过程中产生的三个图对象。在下一节中，我们将使用本章的示例数据， 
通过 Gephi 对这些结果进行可视化。 

使用 Gephi 可视化 Twitter 聚类网络 

前向提到过，我们可以使用 Gephi 程序可视化地研究 M 络数据。如果你 LL 经下栽片安装 
rOcphi , 皆先 要做的足打开应用程序并 ii 加栽 Twittei •数据。在这里例子中，我们将使 
HlDrew 的个体 M 络，它存放在本章的(^☆/如如/办〜⑺/^以/文件夹卜。不过，如 果你生 
成 f 自己的 Twitter 数据，我们欢迎你用它来转换 Drew 的数据。 


注意： 我们件不打兑在.这申.完牿而 if- 细地介炤如 W 使用 Gephi 进行 M 络 n 〖视化^这一节只足想要说 
明如 H"f 视化地分析 Twiuer 个体 M 络的区域圈了•结构。 Gephi 是一个用于网络"1视化的 健壮 
W 序，它位允 HT •多 用千分 析数据的操作选项。在本节中，我们将使川这啤操作的一小部 
分，似是强烈逮议你尝甙一下这个程； f， 并 R 多 KU： 它的各种操作。 Gcphifj 己的快速人 f | 
介绍足.个 ? Ut 奉的 起点，以访问： http :// gephi . org / 2010 / quick - start - tutorial / 0 


打开 Gephi 之后，你可以使用菜单栏中的 File —Open (文件一打开）选项加栽个体网 
络。像图 11-4 上面部分展示的那样，先定位到 derwconway 文件夹，然后打开其中的 

文件。当你加载了图数据之后， Gephi 将会返回刚刚被你加载的 
M 络文件的一些基本报告信息。图丨1-4的下面部分展示了这个报告信息，它包含了节点 
数和边的个数等信息。如果点击报告窗 U 上的报告标签，你将会看到我们添加到这个网 
络 h 的所有厲性数据。值得特别注怠的是，以 HC 开 头的那些节点域性， 它 们足前10 个非 
平凡 S 次聚类分剌的标签。 

挣先注怠到的是， Gephi 刚刚加栽的网络就像是一大堆随机摆放的节点，是 - 个 可怕的 
M 络色线 W 1。 通过精巧地摆放节点位置，可以表达网络中的许多群落结构。摆放人型 
复杂 N 络冇点的方法和算法是计算机行业中经常用到的，因此，你可以用很多方式来重 
新 ffi 放这些节点。对于我们来说，希望那些有更多共同连接的点摆放得吏靠近。回忆一 
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下，我们的聚类方法 就足基 T 节点 之间的 跗离把节点放到不 Ml 组中。趴离电近的节点会 
波放在同一组中，而且我们希望可视化技术能够反映这一点。 
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图 11-4: 加载网络数据到 Gephi: a) 打幵网络文件 b) 数据加载进 Gephi 

一组常用的节点摆放方法组成了 “力导向” （force-directed) 算法。颐名思义，这些算 
法忒图 模拟： 如果把引力和斥力放到网络中，如何对这些节点进行摆放。把 Gephi 当前 
展示的图中的那些节点间混乱的边想象成橡皮筋，并且把节点想象成具有相同磁性的球 
形轴承。力导向算法试图计订球形轴承因为磁力悱斥被彼此推开多远，但是随后被揿皮 
筋拉问来多少。这个算法的可视化结果是，节点按照区域圈子结构整齐地摆放到一起。 

Gcphift 带丫许多力导向布局样例。在布局 (Layout) 面板屮，下拉菜单中有许多不同 
的选项， It •中-•些就是基于力导向的。我们将选择胡一帆比例 （Yifan Hu Proportional) 
算法，并辻使用默认设罝。选择这个笕法之后，点击运行 （Run) 按钮，你将看到 Gephi 
使力沣向的方式 K 新摆放节点。这个过程花费的时间依赖1 : 你的网络大小，而 ii 特別 
依赖你运行时使用的硬件设备。当节点停止移动时，算法就完成了对节点摆放位 W 的优 
化，我们也做好了进行下一步工作的准备。 

为 f 更容易识别网络中的区域圈子和它们的成员，我们将改变节点的大小并且对它们重 
新若色。因为这里的网络是有向个体网络，所以我们将把节点的大小设置为一个关于 
节点入度的 闲数。 这将使种子节点成为最大的节点，因为儿乎每一个网络成员都关注种 
?•, 这样也将会使个体网中其他突出的用户节点增大。在排序 （Ranking ) 面板屮点击 
旮点 （ Nodes) 标签，并且在下拉框中选择入度 （InDegree) 。点击红色钻石图标，可以 
设蓖大小。你能够把最大尺寸和最小尺寸设羿成任何你想要的值。 你吋 以在图 11-5 的下 
t- 部分中看到，我们在 Drew 的网络中把最小尺寸和最大尺寸分别设置为2和16,但是其 
他设黄也许对你来说会更好。当你设賈了这些值之后，点击应用 （Apply ) 按钮，即可 
改变节点的大小。 
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最后一步是根据4、同的圈子分割给界点着色。在排序面板前面的分割 ( Partition ) 面板 
中，你将看到一个有两个相对箭'又•的 W 标。点 rli 这个图标， 就吋以 刷新这个图的分割列 
表。在你完成这些之 G ， 旁边的下拉框中将包含我们为这些分割引入的节 点厲性 数据。 
如图丨 1-5 的上半部分所示，我们选择了 HC 8, 成 者说第8 个 分割， 它 包含了一个山 Drew 
及其个体网络中其他7种节点组成的分割。再次点 A 应用按钮，这些节点将会按照分割 
进行着色。 


e o o 



图 11-5: 通过聚类设置节点的大小并着色 

你将立刻看到网络中潜在的结构！用 f 观察一个特定网络如何分裂成更小的_户的一个 
完美方法是，一步一步地对 •个 层次聚类的分割进行这样的操作。作为一个练>】，我们 
逮议你在 Gephi 中通过增加分割粒度来迭代地对节点进行重新荇色。从 HC 2 到 HC 10， 如 
一次都对节点重新着色，然后观察网络被分成多人的组。这样做可以告诉你 M 络的很多 
潜在结构。_ 11-6 展乐了 Drew 的个体 M 路如何某于 HC 8 被符色，它漂亮地突出 M 示了个 
体网 络的区域圈子结构。 
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图 11-6: 根据区域圈子结构对 Drew 的个体网络着色 

看 h 去 Drew 的个体网络有四个主要圈子。随肴中间代表 Drew 的节点被着色为靑色，我 
们吋以看到两个与它紧密相连的组，分別若色为红色和紫色；还有另外两个与他连接不 
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是那么紧密的子组，分别是他右边的蓝色组和绿色组。当然，还有其他橘黄色、粉红色 
和浅绿色的组等，但是我们只关注4个主要的组。 

在图丨1_7中，我们专注于网络的左半部分，并且把边都删除了，以便于更容姑观察节点 
的标签。快速浏览一遍这部分聚类的 Twitter 用户名，很明显 Drew 的这部分网络包含了 
Drew 在 Twitter . h 关注的数据专家。首先我们看到的是知名的数据专家，比如浅绿色的 
蒂姆奥 茱利 ( timoreilly ) 和 Nathan Yau ( flowingdata ) ，因为他们都是自成一体的。 
紫色和红色的组也很有趣，因为它们都含有数据黑客，但是被一个关键因子分成两部 
分： Drew 的紫色好友都是数据圈子的杰出成员， 例如 ： HilaryMason ( hmason) 、 Pete 
Skomoroch ( peteskomoroch) 、 Jake Hofman ( jakehofman ), 但是他们没有一位是 R 
语言圈子的活跃成员。另一方面，红色的节点都是 R 语言圈子的活跃成员，包括 Hadley 
Wickham ( hadleywickham ) , David Smith ( revodavid) 、 Gary King ( kinggary ) 0 

此外，力导向笕法成功地把这些圈子成员放到一起，并且 把属于 这两个圈子的那些节 
点放到圈子的边缘。我们可以看到 John ( johnmyleswhite ) 是紫色的，但是他被放到很 
多红色节点中间。这是因为 John 在这两个圈子中都是杰出成员，而且数据也反映了这一 
点。其他的这类例子包括 : JD Long ( cmastication ) 和 Josh Reich ( i 2 pi ) 。 

尽管 Drew 花了很 fe 时间和数据圈子成员交流（包括 R 用户和非 R 用户数据圈子成 员）， 
但是 Drew 也使用 Twitter 与满足其他兴趣的圈子交流。其中一个特別的兴趣足他的学术职 
业生涯，他关注闻家安全技术和政策。在图 11-8 中，我们突出了 Drew 网络的右半部分， 
它包含了来自这些兴趣相关的圈子的成员。和数据专家组类似，这部分包含了2个子 
组，一个是蓝色的，另外一个是绿色的。和前面的例子一样，节点的分割颜色和摆放位 
置可以反映出他们在网络中扮演的角色。 


蓝色分割中的 Twittei ■用户铺得 很开： 一部分离 Drew 很近，在网络的左边，而另外一些在 
网络的右边，接近绿色的组。那些靠近左边的用户与技术在国家安全中的角色这一话题 
有关，这些用户包括 ： Sean Gourley ( sgourley) 、 Lewis Shepherd ( lewisshepherd ) 和 
Jeffrey Carr (Jeffrey Carr ) 。那些探近绿色组的用户更加关注国家安全政策，和绿色组 
中的成员相似。在绿色组中，我们看到很多 Twiner 上著名的国家安全圈子成员， 包括： 
AndrewExum ( abumuqawama) 、 Joshua Foust (joshua Foust ) 和 Daveed Gartenstein - 
Ross ( daveedgr ) 。和前面一样，有趣的是，那些属于两个组的人被放置到聚类边缘， 
例如 : Chris Albon ( chrisalbon ) ,他在两个圈子中都很杰出。 

如果你研究 Q 己的数据，会看到什么样的区域圈子结构呢？也许像 Drew 的网络一样， 
圈子结构显而易见，也可能是更加不明显的圈子结构。深人研究这些_子结构是很有趣 
的，而且会获得很多信息，我们鼓励你去做这种研究。在接下来的一节中，我们将使用 
这些圈子结构为推特创建一个我们自己的“感兴趣的人”推荐引擎。 
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11-7： Drew 的数据专家好友 





图 11-8: Drew 的国家安全专家好友 


建立“感兴趣的人”引擎 

要为 Twitter 建立我们自己的好友推荐引擎，有很多方法可以考虑。 Twitter 中的数据有很 
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多维度，冈此我们可以考虑 tt 干用户在 Twiner t 谈论的话题进行用户推#。这足文本 
挖掘的一个实践，而 FI . 它要 求基于 Twitter 语料中某些共现的申词或者主题集合来 F .配⑴ 
户。同样，许多 tweet 中包含 f 地理定位信息， W 此我们也可以为你椎荐趴离你很近的活 
跃用户。或者我们也能把这两种方法综合到一起，两种推荐方法分别取前 100 个推荐用 
户，然后计算交集。可是由干本章足关 FM 络的， W 此我们只关注雇 f 1 用户的关系建立 
一 个推荐引擎。 

先 U ： 我们呑一个关于关系是如何在大型社交网络中起作用的简中.理论，这是一个很好的 
起点。弗里茨•海德在1958年提出了 “社会平衡理论” (social balance theory ) 的概念。 


朋女的朋友是朋友 


朋友的敌人是敌人 


敌人的朋友足敌人 


敌人的敌人是朋友 

——弗里茨海德 
人际关系心理学 

这个概念作常简单，而 R 可以在社交关系阉中使用闭合和开放的三角关系来描述。海德 
的理论要求使用有符号的关系，朋友（正）或者敌人（负）。嬰知道，我们并没有这类 
估怠，那么我们如 何使用 他的理论来建 立一个 Twitter 关 系推荐引繁呢 ？ 首先， 一 个成功 
的 Twitter 推荐引笮可以用于把敞开的三角形闭合 起来， 即找到朋友的朋友，也就是说， 
找到朋友的朋友，然后把他们作为 A 的朋友。 尽管我 们没冇完全符号化的关系， m 足 
如果假设敌人之间在 Twitter 上互不关注，我就能知道所有的符号为正的关系。 

在进行初始数据提取时，我们进行了两轮滚雪球搜索。这份数据包含我们的朋友以及朋 
友的朋友。因此，我们可以使用这份数据标 m 需要闭合的三角形。问题 在干： 在众多 
潜在的三角形中，我应该推#首先闭合哪一个呢？我们可以再看一下社会平衡理论。通 
过寻找滾雪球搜尜初始数据中那些种+ 没打关 注的，但是种 f ■的很多朋友都关注 r 的节 
点，我们可以获得用于推荐的候选节点集。这样做对海德的理论做 了如下扩充： 很多朋 
友共间的朋友，很可能会成为自己的好朋友。从本质上说，我们想要闭合种子 Twitter 义 
系中那些最显而易见的三角形。 

从技术的角度上来说，这个方法也比试图用文本挖掘或者地理空间分析来推荐朋友要简 
舐多 r。 在这里，只需要 u •算我们朋友的朋友中，I隹是被我们的朋友关注敁多的。为 r 
完成这个任务，我们萏先加栽之前收集的整个 M 络数据。和前面一样，我们将在这个例 
子中使用 Drew 的数据，但是如果你有自己的数据，我们建议你使用它。 
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user <- ._drewconway" 

user.graph <- read.graph(paste("data/", user, .7", user, "_net.graphml",sep=""), 
format>"graphml") 

我们疔先获得种子的所有朋友的 Twitter 用户名。可以使用 neithbors 函数来获得邻居的向 
tt 下标，但是因为 igraph 的默认卜标和 RiS 言不 M ， 所以需要对这些下标值加1。然后， 
把这哞值传给特定的 V 阐数，它将返 M 图的节点厲性，在这个例+中是 name 厲性。接 
£•，使) Hget . edgelist 函数生成图的完整边列表，它是一个很大的 N x 2矩阵。 

friends <- V(user.graph)$name[neighbors(user.graph, user, mode:..out")+1] 
user.el <- get.edgelist(user.graph) 

我们现在拥冇 r 所需的全部数据， "1 以用十算当前种子用户没有关注的用户分別被多 
少个种子用户的朋友关注。泞先，我们需要识別出 user . el 中的哪些行包含由种子用户 
的朋友到当前未被种子用户关注的用户的链接。和前面几章一样，我们将使用向量化的 
sapply 函数，对矩阵的每一行都用一个包含相当 S 杂测试逻辑的函数做检査。我们想要 
生成一个包含 TRUE 和 FALSE 的向量，用它来决定哪些行包含了种子用户没有关注的“朋 
友的朋友”。 

我们使用 if else 函数来组合这个本身足向 tt 化的检査。检査的开始部分杳看本行中的任 
怠 7 t 素足否足种子用户，以及第一个元素（起点）不是种子用户的朋友。我们使用 any 
函 数组合它们，只要其中之一为真，就跳过这一行。其他的检査条件是看当前行的第二 
个元紊 UJ 标节点）是否是种子用户的朋友。我们关心 I 隹是朋友的朋友，而不是谁关注 
我们的朋友， W 此也忽略这个条件为真的行。依赖于行的个数，这个过程将需要花1〜2 
分钟时间，恨是完成这一步 P ， 我们把合适的行提取出宋，放到 non . friends . el 中，件 
且使用 table 函数创建包含名字出现次数的表格。 


non.friends <- sapply(i:nrow(user.el) , function(i) ifelse(any(user.el[i # ]==user 
!user.el[i,l] %in% friends) | user.el[i,2] %in% friends, FALSE, TRUE)) 

non.friends.el <- user.el[which(non.friends==TRUE),] 
friends.count <- table(non.friends.el[,2]) 

接 I 、‘来将要展现结采。我们想找到大部分“明显”的三角形，然后闭合它们，因此我们 
想要找到这份数据中出现最多的那叫用户。我们用 table 函数创建的向量来创建一个数 
据抿。我们也增加了一个 W —化方法 （ normalized ) 计兑最应该被关注的推荐用户，它 
计算种 子用户的朋友关注候选椎拃用户的百分比。在最后一步屮，我们按照百分比递减 
的顺序对数椐框排序。 


friends.followers <- data.frame(list(Twitter.Users=names(friends.count). 
Friends.Following=as.numeric(friends.count)), stringsAsFactors=FALSE) 
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friends.followers$Friends.Norm <- friends.followers$Friends.Following/length(friends) 
friends.followers <- friends.followers[with(friends.followers, order(-Friends.Norm)),] 


为了展示结果，通过运行 friend . followers [ l : lO ,] 命令，我们可以观察前10行，或者 
说推荐的感兴趣人之中最佳的前10个。在 Drew 的例子中，结果如表 11-1 所示。 

表 11-1: 社交关系图 


Twitter 用户 

关注他的朋友个数 

关注他的朋友百分比 

cshirky 

80 

0.3053435 

bigdata 

57 

0.2175573 

fredwilson 

57 

0.2175573 

dangerroom 

56 

1 

0.2137405 

shitmydadsays 

- 

55 ! 

-- 

0.2099237 

al3x 

— 53 — J 

0.2022901 

fivethirtyeight 

52 

0.1984733 

theeconomist 

52 ! 

0.1984733 

zephoria 

52 

0.1984733 

cdixon 

51 

0.1946565 


如果你认识 Drew , 那么这些名字就会很有意义。 Drew 的最佳推荐是应该关注 Clay Shirky 
( cshirky ) ,他是纽约大学 （ NYU ) 的一位教授，研究技术和互联网在社会中的角色， 
并出版了很多著作。在我们已经了解 Drew 两个一般兴趣的情况下，这看上去是一个很 
好的匹配。记住这一点，剎余的推荐都满足了 Drew 的一个或者两个一般兴趣。他们足 
Danger Room ( dangerroom ) 、 Wired’s National Security blog、Big Data ( bigdata ) 和 
538 ( fivethirtyeight ) , Nate Silver 的 《New York Times 》 精选广播 博客。 当然，还有 
shitmydadsays^^^o 

尽管这些推荐很不错，而且从本书刚开始撰写开始， Drew 就已经关注了这个引擎推荐 
的用户，但是也许有更好的方式来推荐用户。因为我们已经知道一个 Li 知种子用户的网 
络具有很多自然的结构，所以通过这种结构来推荐那些各个组中的用户也许是有效的方 
法。除了推荐朋友们最关注的朋友，我们也可以推荐那些在某个已知维度上和种子用户 
类似的朋友的朋友。在 Drew 的例子中，我们可以推荐他闭合在国家安全圈子、 政策圈 
子、数据圈子或者 R 语言圈子中存在的开放三角关系。 

user.ego <- read.graph(paste("data/", user, user, "_ego.graphml", sep=""), 

format=”graphml") 

friends.partitions <- cbind(V(user.ego)$HC8, V(user.ego)$name) 

译注 1: shitmydadsays 是 Drew 的莱个兴趣相关的 Twitter 。 
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我们首先需要做的是，熏新加载包含分割数据的个体网络。因为我们已经研究过 HC 8 这 
个分割了，所以将仍然使用它来对推荐引擎做最后的改进。加载网络之后，我们将创 
建一个 friends.partitions 矩阵，它每一行的第一列元素是分割编号，而第二列是用户 
名。对于 Drew 的数据来说，它是这个样子的： 

> head(friends.partitions) 

[,1] [,2】 

[1,] "0" "drewconway" 

[2,] ”2" ..31lnyc_ 

[3,] "2" "aaronkoblin" 

[4,] "3" "dbumuqawama" 

[5 ,】 ”2" "acroll” 

[6,] "2" "addmlaiacano" 

现在我们需要做的就 只剩下 计算每个圈子中最明 a 需要闭合的三角关系了。因此，我们 
定义了 pairtition.follows 函数，它接受分割编号作为输入，并且能找到那些我们想要 
的用户。因为已经计算出了所有的数据，所以这个函数只是简单地査看每个分割中的用 
户，然后返回被种子用户的朋友关注最多的那个用户。这个函数中出现的唯一错误检査 
就是 if 语句，它检査一个已知子集的行数是否小干2。做这个检査的原 因是： 有一个分割 
只包含一个用户，就是种子，而且我们也不想从这个手工编造的分割中做出推荐。 

partition.follows <- function(i) { 

friends.in <- friends•partitions[which(friends.partitions[,1]==i),2] 
partition.non.follow <- non.friends.el[which(!is.na(match(non.friends.elf,l], 
friends.in))),] 

if(nrow(partition.non.follow) < 2) { 
return(c(i, NA)) 

} 

else { 

partition.favorite <- table(partition.non.follow[,2]) 

partition.favorite <- partition.favorite[order(-partition.favorite)] 

return(c(i,names(partition.favorite)[l])) 


partition.recs <- t(sapply(unique(friends.partitions[,l]), partition.follows)) 
partition.recs <- partition.recs[!is.na(partition.recs[,2]) & 

!duplicated(partition.recs[,2]),] 

现在我们可以通过分割来査看推荐结果了。像之前提到过的，种子的 “ 0 ” 这个分割是 
没有任何推荐结果的，但是其他的分割有。有趣的是，在某些分割中，我们看到了某些 
和前面一步推荐结果中相同的用户名，但是大多数都是我们没见过的用户。 

> partition.recs 

[, 1 ] [, 2 ] 

0 "0" NA 

2 M 2" "cshirky" 

3 m 3*' "jeremyscahill" 
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4 "4" "nealrichter N 

5 "5" "jasonmorton" 

6 "6" "dangerroom" 

7 "7" "brendan642 M 

8 "8" "adrianholovaty" 

当然，更加令人满意的是在网络中观察这些推荐结果。这样将会更容易看出在哪个_子 
中推荐了哪个用户。本章包含的代码将会把这些推荐结果添加到一个新的图文件中，它 
包含了这些被推荐的节点及其所属的分割编号。我们并不在这里列出代码，这是因为它 
是家庭作业要完成的1要练习，我们鼓励你从本书的 O ’ Reilly 官网下载相关代码，并且 
仔细阅读它。作为最后一步，我们将对 Drew 的推荐结果数据进行可视化。结果如图 H -9 
所示。 

这些推荐结果相当好！回忆一下，蓝色节点是在 Drew 的网络中那些介于他的技术和国家 
安全兴趣之间的 Twitter 用户。引擎推荐了 “Danger Room 博客”，它正好满足了 Drew 两 
方面的兴趣。绿色节点是那些经常谈论国家安全政策的人，在他们中间，我们的引窄推 
荐了 Jeremy Scahill ( jeremyscahill ) 。 Jeremy 是 《The Nation 》 杂志的国家安全记者，他 
完全符合这组人的特点，而且可能也暗示了一些 Drew 的个人政治观点。 

另一方面，红色节点都是 R 语言群落中的人。推荐引擎建议关注 Brendan O ’ Connor ， 
他是卡耐基•梅隆大学的一位机器学习方向博士生，也是一个经常发表 R 语言相关 tweet 
的人。最后，紫色的组包含了其他来自数据群落的人。在这组中，引擎的推荐是 Jason 
Morton (Jason Morton ) ，他足宾夕法尼亚州立大学的一位数学与统计学方向的助理教 
授。所有这些推荐都与 Drew 的兴趣吻合，但也许这比前面的推荐结果更有价值，因为我 
们清楚地知道这些人与他的兴趣相投之处。 

还有许多其他方法可以用来建立一个推荐引擎，而我们希望你可以动手尝试运行这些代 
码，并 R 可以在你的数据上不断地改进它们，以获得更好的椎荐结果。 
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图 11-9: Drew 的基于区域圈子结构推荐结果 







第 12 章 

模型比较 


SVM ： 支持向量机 

在第3章，我们引入了决策边界的槪念，并指出对于简单的分类算法而言，非线性决策 
边界的 M 题会是一个很大的挑战。在第6章，我们演示了如何使用逻辑回归这个线性决 
策边界分类算法进行分类。在这两章里，我们都承诺会在后面的内容中介绍一种叫做 
“核方法”的技巧，用来解决非线性决策边界问题。现在，让我们兑现承诺，给你介绍 

一种新的分类算法-支持向量机 (Support Vector Machine , SVM ) ，它可以让你使 

用多种不同的核函数来找到非线性决策边界。我们会使用 SVM 来对一组非线性决策边界 
的数据进行分类。特别是如图 12-1 所示的数据集。 

看一下数据集，我们就很清楚，0类数据分布在两边，而1类数据分布在中间。如果使用 
在第6章屮介绍过的类似逻辑回归这样的简单分类算法，无法找到这种非线性的决策边 
界。为了证实这一点，我们使用 glm 函数来尝试使用一下逻辑回归。 

df <- read.csv('data/df.csv') 

logit.fit <- glm(Label ~ X + Y, 

family = binomial(link = 'logit'), 
data = df) 

logit.predictions <- ifelse(predict(logit.fit) > 0, l, 0) 

mean(with(df, logit.predictions == Label)) 

#[l] 0.5156 

正如你看到的，预测准确率只有52%，就算我们猜“所有的数据都是0类数据”，也能得 
到这样的准 确率： 
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mean(with(df, 0 == Label)) 
#[ 1 ] 0.5156 



0 2 0.4 0.6 08 

X 


图 12-1: 非线性决策边界的分类问题 

简言之，面对这个问题，逻辑回归模型（包括它所找到的线性分类面）完全没用。它除 
r 利用 “0类数据比1类数据要多”这个信息之外，完全没有利用任何其他信息。 

那么，我们该怎么办？你将会看到， SVM 会千得比逻辑回归更好。我们稍后再解释它具 
体是怎么实现的，先把整个 SVM 算法看成 * 个管用而神奇的黑盒子。我们需要使用程序 
包 el 071 中的 svm 函数，它用起来就像用 glm 函数一样 简单： 

library(.el07l.) 

svm.fit <- svm(Label ~ X + Y, data = df) 

svm.predictions <- ifelse(predict(svm.fit) > 0 ， 1, 0) 
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mean(with(df, svm.predictions == Label)) 
#[l] 0.7204 


显然，我们干得好多了（颅测准确韦为72%)，似我们所做的仅仅是把模型从逻辑回 IJJ 
换成 fSVM 。 SVM 是怎么做到这一切的？ 

为广理解 SVM 是如何胜过逻辑回归的，我们先把 SVM 的颅测结果点和逻辑回归的预测结 
果都両 在直方阁 上： 

df <- cbind(df , 

data.frame(Logit * ifelse(predict(logit.fit) > 0, l, 0), 

SVM = if else (predict (svm. fit) > 0, 1^ 0))) 

predictions <- melt(df, id.vars = c('X', 'Y')) 

ggplot(predictions, aes(x = X, y = Y, color * factor(value))) + 
geom_point() + 
facet grid(variable .) 


在这电，为 r 方便 _ 图，我们把逻辑冋归的 m 测值和 svm 的预测值都添加在原始数 
据集后面，再使用 melt 函数构建一个新的数据集，并把这个数据集保存在一个叫做 
predictions 的数据框里面。 S 后，我们把真实数据、逻辑回归的预测结果和 SVM 的预 
测结果三者并排展示在图 12-2 中，以方便互相比较。 

在阁 12-2 中，我们发现，逻 辑回归 把决策边界画在整个数据集之外，根本没发现 W 实数 
据中1类数据在中间呈带状分布的事实。 SVM 发现了这种带状分布的结构，不过它在两 
侧靠近边缘的预测结果存在失误。 

现在，我们看到 SVM 的确如承诺的那样，生成了一个非线性的决策边界。不过，它究竞 
是怎么做到的呢？答案就是核方法 （kernel trick ) 。使用一个数学转换，它把原数据集 
转移到一个新的数学空间中，在这个新空间里它的决策边界是简中.的因为这个数 
据转换基于一个简单的核函数的计算，所以这种技巧称为核方法。 

要理解核方法的数学原理非常困难，+过想得到-些感性认识汴不难。 SVM 闲数有 
一个 kernel 参数，它可以接受4 个值： 线性 （ linear ) 、多项式 （ polynomial ) 、径向 
( radial ) 和 S 型 （ sigmoid ) 。为了理解核函数的 T . 作原理，我们将尝试使用这4个核函 
数，再把它们的预测结果都画出来（见图 12-3) : 


译洼丨：此处是指线性的。 
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图 12-2: 对比逻辑回归与 SVM 的预测结果 

df <- df[, c(’X_, _Y., 'Label')] 

linear.svm.fit <- svm(Label ~ X + Y, data = df, kernel = 'linear') 
with(df, mean(Label == ifelse(predict(linear.svm.fit) > 0, 1, 0))) 

polynomial.svm.fit <- svm(Label 〜 X + Y, data = df, kernel = 'polynomial') 
with(df, mean(Label == ifelse(predict(polynomial.svm. fit ) > 0, 1, 0))) 

radial.svm.fit <- svm(Label ~ X + Y, data = df, kernel = 'radial') 
with(df, mean(Label == ifelse(predict(radial.svm.fit) > 0, l, 0))) 

sigmoid.svm.fit <- svm(Label ~ X + Y, data = df, kernel * ' sigmoid') 
with(df, mean(Label == ifelse(predict(sigmoid.svm.fit) > 0, 1, 0))) 

df <- cbind(df, 

data.frame(LinearSVM = ifelse(predict(linear.svfn.fit) > 0, 1, 0), 
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PolynomialSVM = ifelse(predict(polynomial.svm.fit) > 0, 1, 0), 
RadialSVM = ifelse(predict(radial.svm.fit) > 0, l, o), 
SigmoidSVM = ifelse(predict(sigmoid.svm.fit) > 0^ 1, 0))) 


factor(value) 

• 0 


© 

•O 

iS 



predictions <- melt(df, id.vars - c('X', 'Y')) 


ggplot(predictions, aes(x = X, y 
geom_point() + 
facet_grid(variable ~ .) 


Y, color = factor(value))) + 


正如你 从图丨 2-3 中看到的那样，线性和多项式核函数给出的预测结果和逻辑回卩 -1 差不 
多。相较而言，径向核函数给出的决策边界就非常接近真实的决策边界。而 S 型 核闲数 
给出的决策边界非常复杂和诡异。 


图 12-3: SVM 不同核函数之间的对比 
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你应该在自己生成的测试数据集上尝试一下这 4 个核函数，以便对它们的表现有一个爽 
观的认识。在这之后，你大槪会猜想， SVM 应该会做得比它看上去能做得更好。的确， 
SVM 有一些默认的超参数需要设置，为了得到最好的预测效果，需要优化这些超参数。 
接下来我们将介绍最主要的超参数，再看看如何通过优化它们来提升模型的效果。 

第一个可以调节的超参数，就是当你使用多项式核函数时的多项式的次数。你《『以在调 
用 SVM 函数时指定 degree 参数的值。接下来用4个简牟•的例子来看一下 degree 超参数足 
怎么发挥作 用的： 


polynomial.degree3.svm.fit <- svm(Label ~ X + Y, 

data * df, 

kernel = 'polynomial', 
degree = 3) 

with(df, mean(Label != ifelse(predict(polynomial.degree3.svm.fit) > 0, l, 0))) 

#[l] 0.5156 

polynomial.degrees.svm.fit <- svm(Label ~ X + Y, 

data = df, 

kernel = 'polynomial', 
degree = 5 ) 

with(df, mean(Label != ifelse(predict(polynomial.degrees.svm.fit) > 0, 1, 0))) 

#[l] 0.5156 

polynomial.degreelO.svm.fit <- svm(Label " X + Y, 

data = df, 

kernel s 'polynomial', 
degree = 10) 

with(df, mean(Label !* ifelse(predict(polynomial.degreelO.svm.fit) > 0, 1, 0))) 

#[l] 0.4388 

polynomial.degreel2.svm.fit <- svm(Label ~ X + Y, 

data 囂 df, 

kernel = _polynomial•, 
degree = 12) 

with(df, mean(Label I- ifelse(predict(polynomial.degreel2.svm.fit) > 0, 1, 0 ))) 

#[l] 0.4464 

在这里，我们发现把 degree 参数设为 3 或者 5 对于模型的预测效果没有太大的影响。（需 
要指出的是， degree 参数的默认值是 3) 。不过，把 degree 设到10或者12确实产生了影 
响。 it 我们再把决策边界画出来看一下到底发生了什么（见图 12-4) : 

df <- df[, c(.X., ，r ， 'Label')] 
df <- cbind(df, 

data.frame(DegreeBSVM = ifelse(predict(polynomial.degree3.svm.fit) > 0, 



Degree5SVM = ifelse(predict(polynomial.degrees.svm.fit) > 0, 
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factor( value) 

♦ 0 




DegreeloSVM = ifelse(predict(polynomial.degreel0.svm.fit) > 0, 

S), 

Degreel2SVM = ifelse(predict(polynomial.degreel2.svm.fit) > 0, 

l , 

0 ))) 


predictions <- melt(df, id.vars = c('X', 'Y')) 


ggplot(predictions, aes(x = X, 
geom point() + 
facetgrid(variable ~ .) 


Y, color = factor(value))) + 


图 12-4: 不同 degree 超参数下的多项式核函数 SVM 

从阁 12-4 屮，我们看到更人的 degree 值确实带来 rM 测准确串的提升，尽管它是以一 
种怪异的，并不是真正通过拟合数据的方式达到的。而且，如你注息到的那样，随着 
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degree 越来越大，模型拟合所需要花费的时间越来越长。最后，我们在第6章进行多项 
式拟合时遇到的过拟合问题，又一次发生了。因此，当你使用多项式核函数来应用 SVM 
算法时，记得一定要对 degree 使用交叉验证。毫无疑问，如果你肯花精力好好优化它， 
多项式核函数的 SVM 分类器会是非常有用的机器学习工具。 

我们已经研究过了多项式核函数的 degree 超参数，接 " F 来研究一下 cost 超参数，它可以 
与任何一种 SVM 核函数相配合。以径向核函数为例，我们尝试4个不同的 cost 值，来看 
看改变 cost 值带来的效果变化。这一次，我们不再数分错类的数据点的个数了，只数一 
下分类正确的点的个数，毕竟我们还是对模型的“正确性”更感兴趣。下面的代码展示 
了我们是如何研究这个 cost 参 数的： 

radial.costl.svm.fit <- svm(Label ~ X + Y, 

data = df, 
kernel = 'radial', 
cost = l) 

with(df, mean(Label == ifelse(predict(radial.costl.svm.fit) > 0, 1, 0))) 

#[1] 0.7204 

radial.cost2.svm.fit <- svm(Label ~ X + Y, 

data = df, 
kernel = 'radial', 
cost = 2) 

with(df, mean(Label *= ifelse(predict(radial.cost2.svm.fit) > 0, 1, 0))) 

#[l] 0.7052 

radial.cost3.svm.fit <- svm(Label ~ X + Y, 

data = df, 
kernel = 'radial', 
cost = 3) 

with(df, mean(Label -- ifelse(predict(radial.cost3.svm.fit) > 0^ 1, o))) 

#[l] 0.6996 

radial.cost4.svm.fit <- svm(Label ~ X + Y, 

data = df, 
kernel = 'radial', 
cost = 4) 

with(df, mean(Label == ifelse(predict(radial.cost4.svm.fit) > 0, 1, 0))) 

#[ l ] 0.694 

如你所见，增加 cost 参数使得模型的拟合效果越来越差。这是因为， cost 是一个正则化 
超参数，就像在第6章中描述的 lambda 参数一样，因此增加 cost 只会使得模型与训练数据 
拟合得更差一些。当然，正则化会使你的模型在测试集上的效果更好，因此你最好使用 
交叉验证来看看什么样的 cost 值能让你的模型在测试集上取得最好的效果。 

为了对拟合的模型有一个直观的认识，让我们看看图 12-5 中展示的拟合的 效果： 

df <- df[, c( 'X', 'Y', 'Label')] 
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df <- cbind(df, 

data.frame(CostlSVM = ifelse(predict(radial.costl.svm.fit) > 0 , l, 0 ), 
Cost 2 SVM = ifelse(predict(radial.cost2.svm.fit) > 0, 1, 0), 

CostBSVM * ifelse(predict(radial.cost3.svm.fit) > 0 , l, o), 

Cost4SVM = ifelse(predict(radial.cost4.svm.fit) > 0, 1 , 0 ))) 

predictions <- melt(df, id.vars = c('X', 'Y*)) 

ggplot(predictions, aes(x = X, y = Y, color = factor(value))) + 
geom_point() ♦ 
facet_grid(variable ~ •) 

cost 参数的变化带来的改变非常细微，仅可以在图 12-5 两侧最 边缘的数据中察觉到。当 
cost 越来越大，径向核函数的决策边界变得越来越接近线性。 


图 12-5: 不同 cost 超参数下的径向核函数 SVM 
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探究 Tcost 超参数之后，我们再来研究一下最后一个 SVM 超参数 gamma 。 这一次，我们 
将会在 S 型核函数 t 测试4个不同的 gamma 值，来看看它们的表现 如何： 

sigmoid.gamma 1.svm.fit <- svm(Label ^ X + Y, 

data = df, 
kernel * 'sigmoid', 
gamma = l) 

with(df, niean(Label ** ifelse(predict(sigmoid.gammal.svm.fit) > 0, l, o))) 

#[1] 0.478 

sigmoid.gamma2.svm.fit <- svm(Label ~ X + Y, 

data = df, 
kernel = 'sigmoid', 
gamma = 2) 

with(df, mean(Label ** ifelse(predict(sigmoid.gamma2.svm.fit) > 0, l, 0))) 

#[l] 0.4824 

sigmoid. gamma3. svm .fit <- svm(Label ~ X + Y, 

data = df, 
kernel = 'sigmoid', 
gamma = 3) 

with(df, mean(Label ** ifelse(predict(sigmoid.gamma3.svm.fit) > 0, 1, 0))) 

#[l] 0.4816 

sigmoid.gamma4.svm.fit <- svm(Label ~ X + Y, 

data = df, 
kernel = 'sigmoid', 
gamma = 4) 

with(df, mean(Label == ifelse(predict(sigmoid.ganwna4.svm.fit) > 0, 1, 0))) 

U[l] 0.4824 

随着 gamma 的值不断变大，模型变得越来越好。为了对这种进步有一个感性认识，让我 
们把模型的预测结果画出来（见图 12-6) : 

df <- df[, c('X', .V, .Label .)】 
df <- cbind(df, 

data.frame(CammalSVM = ifelse(predict(sigmoid.gammal.svm.fit) > 0, 1, 0), 

Gamma2SVM = ifelse(predict(sigmoid.gamma2.svm.fit) > 0, 1, 0), 

Gamma3SVM = ifelse(predict(sigmoid.gamma3.sv/m.fit) > 0, 1, 0), 

Camma4SVM = ifelse(predict(sigmoid.gamma4.svm.fit) > 0, 1, 0))) 

predictions <- melt(df, id.vars = c('X', 'Y')) 

ggplot(predictions, aes(x = X, y = Y, color = factor(value))) + 
geom_point() + 
facet_grid(variable ~ .) 

正如从图 12-6 中看到的，当改变 gamma 时，由 S 型核函数生成的相当复杂的决策边界会 
随之弯曲变形。为了有一个£直观的认识，我们建议你使用除了这里4个值之外更多的 
gamma 值来继续这个实验。 
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图 12-6: 不同 gamma 超参数下的 S 型核函数 SVM 

关于 SVM 的介绍到此为止。我们认为，这会是你机器学习工具箱中非常有用的一个工 
具。不过现在，你的工具已经足够多了，我们该认真研究一下“当曲对一个具体问题的 
时候，究竟什么工具最合适”这个问题了。针对这个目的，我们将会通过在一个数据集 
上分别应用多个不同的模型来比较效果。 

算法比较 

既然我们已经掌握了 SVM 、 逻辑回归和 kNN 兑法，那么就用第3章和第4拿中垃圾邮件 
数据为例子，比较一下它们的表现。面对现实中的一个真实问题，尝 K 一下多个算法， 
并比较它们的效果是一个好主怠，因为你通常并4、知道什么算法在你的数据集 t . 表现最 
好。而且在机器学习领域，- 个菜巧 和一个专家之间的一 个重要 差别，就在于后者知道 
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某些特定的问题不适合某些算法。为了培养一个机器学习领域专家那样的直觉，最好的 
办法就是，对你遇到的每一个机器学习问题，把所有的兑法试个遍， t 到有一天，你凭 
直觉就知道某些算法行不通。 

第一步足加载数据，然后做一些预处理的工作。因为，这些处理细节之前已经演示过 
r ， W 此在此将跳过， ft 接使用 R 语言的 load 函数把文档-词项矩阵从磁盘中加载到内 
存中， R 语言的对象可以以二进制的形式写入磁盘来持久化，而 load 函数可以把对象从 
磁盘中重新读取到内存中。接着，我们会把原始数据拆分成训练集和测试集，并使用 irm 
闲数把原始数据淸理出 内存： 

load('data/dtm.RData') 
set.seed(l) 

training.indices <- sort(sample(l:nrow(dtm), round(0.5 * nrow(dtm)))) 

test.indices <- which(! l:nrow(dtm) %in% training.indices) 

train.x <- dtm[training.indices, 3 ： ncol(dtm)] 

train.y <- dtm[training.indices, l] 

test.x <- dtm[test.indices, 3 ： ncol(dtm)] 

test.y <- dtm[test.indices, 1] 


rm(dtm) 

现在数据集已经加栽到内存里，我们可以进行下一步了，通过使用 glmnet 进行一个£则 
化的逻辑冋归 拟合： 

library('glmnet') 

regularized.logit.fit <- glmnet(train.x, train.y, family = c('binomial')) 

当然，还有很 多模型 调优的工作需要做，让我们尝试一下不 M 的 lambda 超参数，肴看哪 
个仉能带来最好的表现。为了快速演示这个例子，我们会在交义验证的过程中有一点 
的“偷懒”，只在同一份测试集上测试不同的 lambda 值，而不再对每个不同的 lambda 值 
t 新进行一次拆分。严格地说，这并不是标准的交叉验证，你不应该学我们这么“偷 
懒”，不过，我们把标准的交叉验证过程作为练习留给你去完成了。当前，我们只是尝 
试不同的 lambda 值，然后看看哪个值在测试集 h 的表现 最好： 


lambdas <- regularized. logit .fit$lambda 
performance <- data.frame() 

for (lambda in lambdas) 

{ 

predictions <- predict(regularized.logit.fit, test.x, s « lambda) 
predictions <- as.numeric(predictions > 0) 
mse <- mean(predictions != test.y) 

performance <- rbind(performance, data.frame(Lambda = lambda, MSE = mse)) 
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ggplot(performance, aes(x = Lambda, y = MSE)) + 
geom_point() + 
scale x_loglO() 

从图 12-7 中可以清楚地看到最低错误率对应的 lambda 值大概在什么范围。为了找到精确 
的最优 lambda 值，可以将 min 函数和取索引运算符结合 使用： 


0.14 - • 



图 12-7: 找到最优的 lambda 值 


best.lambda <- with(performance, max(Lambda[which(MSE == min(MSE))])) 

其实，在这个的例子中，有两个 lambda 对应的错误率都是最小的，我们选择了较大的那 
个 lambda ， 这是因为较大的 lambda 意味着更强的正则化。我们可以把训练出来的逻辑回 
归模型在最优 lambda 下对应的 MSE 计算 出来： 











mse <- with(subset(performance. Lambda == best.lambda), MSE) 
mse 

#[l] 0.06830769 

我们发现，正则化的逻辑回归模型只有一个超参数需要调优，并巨错误率只有6%。现 
在，我们需要看看其他算法的表现，以便决定到底使用逻辑回归、 SVM 还是 kNN 。 

首先来试-下线性核函数的 SVM ， 看看它和逻辑回归孰优 孰劣： 
library('ei07i') 

linear.svm.fit <- svm(train.x, train.y, kernel = 'linear*) 

在大数据集上拟合线性核函数的 SVM 需要花费大 i 时间。因此，我们打算 t 接使用默认 
的超参数，这可能对 SVM 不太公平。不过，就像我们在前面做逻辑回归的交叉验证时偷 
懒，因而得到的 lambda 值不是最优的一样，在这里使用 SVM 默认的超参数肯定也 不是& 
优的，这是机器学习范畴的一种惯常做法。当你比较模型之 N 的效果时，有一点必须意 
识到： 你看到的模型一部分的效果，取决于你在这个模型上花费的心血与时间。如果你 
在一个模型调优 t 花费的时间比另一个模型多，那么它们之间效果的部分差异，很 吋能正 
是因为你为那个模胡所花费 r 更多的 i 周优时间， Ifn 不是因为这两个模型本身的优劣。 

基十上面的原闪，让我们继续评佔线性 核函数 SVM 在测 K 数据集上的效 果吧： 

predictions <- predict (linear, svm. fit, test.x) 
predictions <- as.numeric(predictions > 0) 
mse <- mean(predictions != test.y) 
mse 

#0.128 

我们发现错误率为12%,足逻辑 MW 模型的两倍。为 f 获得线性核函数 SVM 能达到的敁 
优效果，你应该尝试不同的 cost 超参数。 

不过，我们锊时先认为线性核函数的效果就是那样了。面对这个问题，没办法像面对本 
章开始的那个问题一样有可视化的方式来#不同核函数的 SVM 效果差异，那么就让我们 
换一个径向核函数来看看换成核函数能带来多大的改 变吧： 

radial.svm.fit <- svm(train.x, train.y, kernel = 'radial') 

predictions <- predict (radial, svm. fit, test.x) 
predictions <- as.numeric(predictions > 0) 
mse <- mean(predictions \- test.y) 
mse 

#[l] 0.1421538 

令人意外的是，径向核函数的效果比线性核闲数还要差，与本孝开始时的非线性数据集 
上的效果正好相反。从这个例子中，你可以学到一个#:要的 经验： 解决一个问题的最优 
模型取决于问题数据的内在结构。在本例中，径向核函数表现不好，也许正意味着这个 
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问题的决策边界可能是线性的。而逻辑回归模型的效果比线性核函数 SVM 和径向核函数 
SVM 都要好这个事实也支持这个判断。这些观察结果也许是我们在一个固定数据集上比 
较不同算法所能得出的最有趣的结论了，我们恰恰是从哪些模型效果好，哪些模型效果 
不好来推测数据的真实结构的。 

在认定逻辑回归在这场模型比赛中胜出之前，让我们再来试一下最擅长非线性数据的 
kNN 模型。我们使用50个邻居的 kNN 算法来进行 预测： 

library('class') 

knn.fit <- knn(train.x, test.x, train.y, k = 50) 

predictions <- as.numeric(as.character(knn.fit)) 

mse <- mean(predictions != test.y) 

mse 

#[l] 0.1396923 

我们看到， kNN 的误差率是14%，这是我们认为线性模型更适合垃圾邮件识别这个问题 
的又一个有力的证据。因为拟合 kNN 很快，因此尝试不同 k 来看下哪个 k 的效果 最好： 

performance <- data.frame() 

for (k in seq(5, 50, by = 5)) 

{ 

knn.fit <- knn(train.x, test.x, train.y, k = k) 

predictions <- as.numeric(as.character(knn.fit)) 
mse <- mean(predictions != test.y) 

performance <- rbind(performance, data.frame(K = k, MSE - mse)) 

} 

best.k <- with(performance, K[which(MSE == min(MSE))]) 
best.mse <- with(subset(performance, K == best.k), MSE) 

. best.mse 

#[l] 0.09169231 

经过调优之后， kNN 的误差率降到了9%。表 12-1 将我们使用过的各种模型以及它们应用 
在邮件数据上的误差率列在了一起， kNN 的效果介于逻辑回归和 SVM 之间。 


表 12-1: 模型比较结果 


模型 | 

MSE 

正则化的逻辑回归 

0.06830769 

线性核 SVM 

0.128 

径向核 SVM 

0.1421538 

KNN 

0.09169231 
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最后，最优的选择似乎是经过超参数调优的正则化的逻辑回归模型，它最适合我们这个 
垃圾邮件分类问题。考虑到当前，业界的垃圾邮件分类器的确都在采用逻辑回 N 模犁来 
淘汰第3章提过的朴素贝叶斯分类器，因此这个结论很合理。尽管原因还不太清楚 ， m 
对于这类问题，逻辑回归的效果的确吏好。 

从这个例子中，我们能学到些什么呢？我们希望你能记住以下儿点经验：丨）面对实脉 
数据集，你应该尝试多个不同的算法，更何况它们用 R 语言来实现又那么方便； 2> 没冇 
所谓通用的“最优”算法，“最优”取决于具体的问题，3> 你的模型效果一方面取决 
于真实的数据结构，另一方面也取决于你为模型的超参数调优所付出的努力，因此，如 
果你想得到令人信服和满意的结果，多花 -点 时间在模型的超参数调优上吧。 

为了牢记并实际应用这些经验，我们希望你能自己动手，在邮件数据上，重新应用一遍 
本章中我们使用过的4个模型， * 新拆分训练集与测试集，利用交叉验证，对模 犁的超 
参数好好调优-番。还有一点，我们在训练 SVM 过程中没有使用多项式核函数和 S 型核 
函数，我们也建议你试一下这两个类型的 SVM 模型。如果你把我们上面的建议都做了一 
遍，必定受益匪浅，你还会发现在同样-•份数据集上，本书中所提及的模型会有多么大 
的表现差异。 

现在，你终干来到了本章也是本书的最后。我们希望你已经发现了机器学习之羌，并 
且，对干在构建一个数据预测模型时可能遇到的各种各样的问题，有了一定的 r 解和认 
识。 我们希望你能从那些经典的机器学习教材中继续学习，本书中有些内容，仅仅从 
实践的0的出发，告诉你“怎么用”，而没告诉你“它是怎么实现的”，以及“它为 
什么可以”，如果你想从理论角度学习这些内容，我们推荐 Hastie 等的箸作 [ HTF 09】 或 
Bishop 的著作 [Bis 061，最好的机器学习实践者既有实践经验又有理论基础，我们希空你 
能从两个方面提髙自己。 

一路上，我们探究机器学习的奥秘，并乐在其中。现在，你有了一大堆强有力的机器学 
习工具，因此，赶紧找一个你感兴趣的领域，开始机器学习之旅吧！ 
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